Story 10 · 260324
FlashAttention-4 提升 Blackwell 推理性能
FlashAttention-4 在 NVIDIA B200 上报告了 1613 TFLOPs/s 的 BF16 前向性能,并宣称相较 Triton 可提升 2.1 到 2.7 倍,同时已集成到 vLLM 0.17.0 和 PyTorch FlexAttention 中。它使用 NVIDIA 的 CuTe-DSL Python 内核框架编写,在保持与 C++相当运行性能的同时,大幅缩短编译时间。 这很重要,因为注意力计算是大语言模型推理中的关键瓶颈,而 FlashAttention-4 将其在最新 NVIDIA GPU 上的速度推进到接近矩阵乘法的水平。对于使用 Hopper,尤其是 Blackwell 系统的工程团队来说,这意味着只需相对简单的软件升级,就可能获得更高吞吐量和更低服务成本。 该实现支持 GQA、MQA 以及滑动窗口注意力,因此可实际用于 Llama、Mistral、Qwen 和 Gemma 等模型。其最大收益依赖于 Blackwell 特有的 TMEM、2-CTA MMA 和异步 TMA 等硬件特性,因此 A100 和消费级 GPU 用户无法使用 FA-4,仍应继续采用 FA-2。
reddit · r/LocalLLaMA · 2026-03-24 00:31 UTC
Why It Matters
为什么值得看
从互动信号来看,这条消息似乎引发了较强的社区关注,但这里没有提供实质性的评论内容,因此无法评估讨论的深度或质量。
Summary
核心内容
FlashAttention-4 在 NVIDIA B200 上报告了 1613 TFLOPs/s 的 BF16 前向性能,并宣称相较 Triton 可提升 2.1 到 2.7 倍,同时已集成到 vLLM 0.17.0 和 PyTorch FlexAttention 中。它使用 NVIDIA 的 CuTe-DSL Python 内核框架编写,在保持与 C++相当运行性能的同时,大幅缩短编译时间。 这很重要,因为注意力计算是大语言模型推理中的关键瓶颈,而 FlashAttention-4 将其在最新 NVIDIA GPU 上的速度推进到接近矩阵乘法的水平。对于使用 Hopper,尤其是 Blackwell 系统的工程团队来说,这意味着只需相对简单的软件升级,就可能获得更高吞吐量和更低服务成本。 该实现支持 GQA、MQA 以及滑动窗口注意力,因此可实际用于 Llama、Mistral、Qwen 和 Gemma 等模型。其最大收益依赖于 Blackwell 特有的 TMEM、2-CTA MMA 和异步 TMA 等硬件特性,因此 A100 和消费级 GPU 用户无法使用 FA-4,仍应继续采用 FA-2。
Background
背景补充
FlashAttention 是一系列经过优化的注意力算法,目标是减少内存搬运并提升 Transformer 工作负载中的 GPU 效率。早期版本已经广泛进入训练和推理软件栈,因为传统注意力内核常常浪费带宽并无法充分利用硬件。FlashAttention-4 将这一路线进一步扩展到 Hopper 和 Blackwell,在这些架构上,瓶颈正从矩阵乘法逐渐转向 softmax 及其相关步骤。文章还强调了一个更广泛的工具链趋势:高性能 GPU 内核如今可以通过基于 Python 的 DSL 开发,同时不牺牲运行时性能。
Discussion
社区讨论
从互动信号来看,这条消息似乎引发了较强的社区关注,但这里没有提供实质性的评论内容,因此无法评估讨论的深度或质量。
Excerpt
抓取内容节选
FlashAttention-4 在 NVIDIA B200 上报告了 1613 TFLOPs/s 的 BF16 前向性能,并宣称相较 Triton 可提升 2.1 到 2.7 倍,同时已集成到 vLLM 0.17.0 和 PyTorch FlexAttention 中。它使用 NVIDIA 的 CuTe-DSL Python 内核框架编写,在保持与 C++相当运行性能的同时,大幅缩短编译时间。 这很重要,因为注意力计算是大语言模型推理中的关键瓶颈,而 FlashAttention-4 将其在最新 NVIDIA GPU 上的速度推进到接近矩阵乘法的水平。对于使用 Hopper,尤其是 Blackwell 系统的工程团队来说,这意味着只需相对简单的软件升级,就可能获得更高吞吐量和更低服务成本。 该实现支持 GQA、MQA 以及滑动窗口注意力,因此可实际用于 Llama、Mistral、Qwen 和 Gemma 等模型。其最大收益依赖于 Blackwell 特有的 TMEM、2-CTA MMA 和异步 TMA 等硬件特性,因此 A100 和消费级 GPU 用户无法使用 FA-4,仍应继续采用 FA-2。
References
参考链接
Navigation