Story 10 · 260324

FlashAttention-4 提升 Blackwell 推理性能

FlashAttention-4 在 NVIDIA B200 上报告了 1613 TFLOPs/s 的 BF16 前向性能，并宣称相较 Triton 可提升 2.1 到 2.7 倍，同时已集成到 vLLM 0.17.0 和 PyTorch FlexAttention 中。它使用 NVIDIA 的 CuTe-DSL Python 内核框架编写，在保持与 C++相当运行性能的同时，大幅缩短编译时间。这很重要，因为注意力计算是大语言模型推理中的关键瓶颈，而 FlashAttention-4 将其在最新 NVIDIA GPU 上的速度推进到接近矩阵乘法的水平。对于使用 Hopper，尤其是 Blackwell 系统的工程团队来说，这意味着只需相对简单的软件升级，就可能获得更高吞吐量和更低服务成本。该实现支持 GQA、MQA 以及滑动窗口注意力，因此可实际用于 Llama、Mistral、Qwen 和 Gemma 等模型。其最大收益依赖于 Blackwell 特有的 TMEM、2-CTA MMA 和异步 TMA 等硬件特性，因此 A100 和消费级 GPU 用户无法使用 FA-4，仍应继续采用 FA-2。

reddit · r/LocalLLaMA · 2026-03-24 00:31 UTC

查看原始链接返回当日摘要

#AI inference#GPU optimization#FlashAttention#PyTorch#NVIDIA Blackwell

Why It Matters

为什么值得看

从互动信号来看，这条消息似乎引发了较强的社区关注，但这里没有提供实质性的评论内容，因此无法评估讨论的深度或质量。

Summary

核心内容

Background

背景补充

FlashAttention 是一系列经过优化的注意力算法，目标是减少内存搬运并提升 Transformer 工作负载中的 GPU 效率。早期版本已经广泛进入训练和推理软件栈，因为传统注意力内核常常浪费带宽并无法充分利用硬件。FlashAttention-4 将这一路线进一步扩展到 Hopper 和 Blackwell，在这些架构上，瓶颈正从矩阵乘法逐渐转向 softmax 及其相关步骤。文章还强调了一个更广泛的工具链趋势：高性能 GPU 内核如今可以通过基于 Python 的 DSL 开发，同时不牺牲运行时性能。

Discussion

社区讨论

从互动信号来看，这条消息似乎引发了较强的社区关注，但这里没有提供实质性的评论内容，因此无法评估讨论的深度或质量。

Excerpt

抓取内容节选

FlashAttention-4 在 NVIDIA B200 上报告了 1613 TFLOPs/s 的 BF16 前向性能，并宣称相较 Triton 可提升 2.1 到 2.7 倍，同时已集成到 vLLM 0.17.0 和 PyTorch FlexAttention 中。它使用 NVIDIA 的 CuTe-DSL Python 内核框架编写，在保持与 C++相当运行性能的同时，大幅缩短编译时间。这很重要，因为注意力计算是大语言模型推理中的关键瓶颈，而 FlashAttention-4 将其在最新 NVIDIA GPU 上的速度推进到接近矩阵乘法的水平。对于使用 Hopper，尤其是 Blackwell 系统的工程团队来说，这意味着只需相对简单的软件升级，就可能获得更高吞吐量和更低服务成本。该实现支持 GQA、MQA 以及滑动窗口注意力，因此可实际用于 Llama、Mistral、Qwen 和 Gemma 等模型。其最大收益依赖于 Blackwell 特有的 TMEM、2-CTA MMA 和异步 TMA 等硬件特性，因此 A100 和消费级 GPU 用户无法使用 FA-4，仍应继续采用 FA-2。

References

参考链接

Navigation

继续浏览

返回摘要页上一条新闻下一条新闻