网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

H100利用率飙升至75%！英伟达亲自下场FlashAttention三代升级

2024-07-12 11:40:17　来源: 量子位

北京举报

0

分享至

明敏克雷西发自凹非寺
量子位 | 公众号 QbitAI

大模型训练推理神作，又更新了！

主流大模型都在用的FlashAttention，刚刚升级第三代。

时隔一年，FlashAttention-3已经全方位升级。

训练速度提升1.5-2倍，FP16下计算吞吐量高达740TFLOPs/s，达理论最大吞吐量75%，更充分利用计算资源，此前只能做到35%。

FP8下速度接近1.2PFLOPs/s！

同时误差也进一步减小，FP8下的误差比标准Attention减少2.6倍。

而且这一次，不再是一作Tri Dao单打独斗，FlashAttention-3直接和英伟达、Meta、谷歌等合作，针对最强芯片H100专门做优化。

英伟达CUTLASS团队和cuDNN团队，都直接为该研究提供支持。

同时和前作一样，FlashAttention-3也将开源，PyTorch和Hugging Face中都集成。

作者之一Vijay Thakkar激动表示：

曾经在FA2发布时，我就说过这句话。今天，我想再说一次：
看到CUTLASS和CuTe被用来开让Tensor Core大显身手的新算法，真的泰裤辣。

前Stable Diffusion老板Emad也非常关注这一进展，他推测使用FlashAttention-3，能将4090的FP8计算吞吐量推升到700+TFLOPs。

充分利用Hopper架构特点

自初代发布以来，FlashAttention已经使大模型速度提高了4-8倍，但还有一个遗憾：尚未充分利用现代 GPU。

针对英伟达H100倍后的Hopper架构新特性，三代进行了专门优化。

整个系列的核心思路，是IO感知优化和分块处理。

作者认为，传统的注意力机制效率低的原因，在处理长序列时，会出现内存访问操作频繁，以及算法复杂度指数级暴增这两大问题。

FlashAttention通过IO感知优化将数据从较大但缓慢的高带宽内存（HBM）加载到较小但更快的片上内存（SRAM），在SRAM中执行计算，减少了内存读写操作的次数。

分块处理则是将输入序列分成若干小块，每次只处理一个小块的数据。这种方法使得每次处理的数据量减少，从而降低了内存使用和计算复杂度。

这样一来，两个关键问题就得到了解决，这两大核心思想也在本次的FlashAttention-3中得到了继承。

但是，第一代的FlashAttention也遗留下了并行性不够强、工作分区划分不合理，以及非矩阵乘法较多（GPU计算单元处理矩阵乘法比非矩阵速度更快）的问题。

针对这一问题，第二代FlashAttention通过重写softmax，减少了重新缩放操作、边界检查和因果屏蔽操作的次数，使得大部分计算集中在矩阵乘法上。

另外，FlashAttention-2引入了序列长度维度上的并行化，并针对工作在线程块之间的分配进行了优化，GPU利用效率更高了。

可以说前两代当中，作者一直坚持着充分利用硬件特点这一思路，但站在今天的视角来看，对硬件的挖掘仍然不够充分。

到了这次的FlashAttention-3，由于是直接和英伟达官方合作，对英伟达Hopper架构特点的理解更加透彻，软硬件之间的协同进一步增强了。

FlashAttention-3的技术报告显示，为了充分匹配Hopper架构，团队主要做了三方面的技术升级。

首先，Hopper架构的一个重要特点是Tensor Core的异步性，FlashAttention-3针对性地提出了一种异步方式。

具体来说，FlashAttention-3引入了一种“生产者（Producer）-消费者（Consumer）”的编程模型，将注意力的计算划分为两个角色。

“生产者”负责将数据从HBM异步加载到片上共享内存（SMEM）。这个过程主要利用了Hopper GPU的张量内存加速器（TMA），可以在不阻塞CUDA核心的情况下进行数据传输。
消费者直接从共享内存读取数据，并使用Tensor Core执行矩阵乘法等计算密集型任务。由于共享内存的访问延迟远低于全局内存，消费者可以快速获取所需数据，提升计算效率。

为了实现角色的划分，作者引入了warp专门化技术，用不同的warp分别匹配生产者和消费者，让两者可以并行执行。

这其中利用了Hopper架构的动态warp寄存器分配特性，通过setmaxnreg指令优化了寄存器资源的利用。

为了进一步提高GPU的利用率，作者又提出了一种“乒乓调度”策略，让一个warp组执行矩阵乘法时，另一个warp组执行softmax，从而实现计算的重叠。

具体讲，FlashAttention-3使用CUDA的同步原语控制不同warp组之间的执行顺序，让不同warp组分别执行两种运算，然后像乒乓球一样交替运行。

第二大技术特点，是warp组内部GEMMs和softmax的重叠，核心奥义是重新安排计算的执行顺序以提高GPU利用率。

与乒乓调度不同，这里的计算重排处理的是warp组内部的重叠，而乒乓调度更关注组间协调。

实现方式上，FlashAttention-3提出了一种两阶段GEMM-softmax流水线方案，以打破不同操作之间的数据依赖。

第一阶段，当前迭代（iteration）的softmax操作与下一个迭代的Q·K^T矩阵乘法重叠执行。
第二阶段，当前迭代的P·V矩阵乘法与下一个迭代的softmax操作重叠执行。

通过引入额外的寄存器和共享内存缓冲区，FlashAttention-3实现了跨迭代的数据传递和重用。

在每个迭代中，Q·K^T的结果首先存储在名为S_cur的缓冲区中，用于当前迭代的softmax计算，同时异步执行下一个迭代的Q·K^T矩阵乘法，结果存储在名为S_next的缓冲区中。

在执行当前迭代的P·V矩阵乘法时,异步执行下一个迭代的softmax操作，并更新S_cur和S_next缓冲区。

第三项更新，是用更低的FP8精度替代FP16。

实际上，降低数值精度是一种常见的优化策略，可以显著提高GPU的计算吞吐量和能效，Hopper GPU也引入了FP8精度的Tensor Core支持。

但是，直接将注意力计算从FP16转换为FP8可能会引入较大的精度损失。

另外，FP8 Tensor Core对输入数据的布局也有特定的要求（K维度连续），不幸的是，注意力计算中的输入数据存储格式（头维度连续）并不符合这样的要求。

所以FlashAttention-3首先引入了一系列内存布局转换技术，动态转置V矩阵的块，改变其连续方式，从而适配FP8 Tensor Core的布局要求。

在此基础之上，为了获得更高的计算精度，FlashAttention-3又采用了分块量化和非相干处理技术。

传统的量化方法通常对整个矩阵使用一个统一的缩放因子（per-tensor quantization），无法很好地适应不同区域的数值范围。

FlashAttention-3则采用了分块量化（block-wise quantization）的策略，为每个块单独设置缩放因子，更好地捕捉局部的数值分布。

非相干处理（incoherent processing）技术则是通过随机正交矩阵对输入数据进行旋转，破坏不同块之间的相干性，减少量化误差的传播。

这两项技术的结合使得FlashAttention-3在FP8精度下取得了更高的计算精度，显著优于传统的量化方法。

结果，与基于传统量化方法的FP8实现相比，FlashAttention-3的使得精度提高了2.6倍。

比标准Attention快16倍

以上就是FlashAttention-3在充分研究Hopper架构特点后做出的三大更新，针对更新后的表现，作者主要进行了3方面测试。

注意力基准测试
消融实验
FP8注意力准确性测试

首先来看注意力基准测试。

通过改变序列长度（512、1k、……16k），并设置批大小以确保总token数为16k。研究人员将隐藏维度设置为2048，头维度设置为64、128或258，计算前向传播、后向传播。

对比标准Attention、FlashAttention-2、Triton、cuDNN和FlashAttention-3，在H100 80GB SXM5上FP16的运行时间。

FlashAttention-3的前向传播比FlashAttention-2快1.5-2倍，后向传播快1.5-1.75倍。

与标准Attention相比，FlashAttention-3的速度快了3-16倍。

对于中长序列（1k以上），FlashAttention-3甚至超过了专门为H100优化的cuDNN。

在消融实验中，通过对非因果FP16 FlashAttention-3进行了2阶段WGMMA-softmax流水线和warp特殊化的消融研究，参数固定为{batch, seqlen, nheads, hdim} = {4, 8448, 16, 128}。

结果证实，FlashAttention-3改进带来了显著加速，从570提升到661。

另外，因为对FlashAttention的数值误差感兴趣，研究团队还将FlashAttention-2、FlashAttention-3和标准Attention进行了比较。

为了模拟LLMs中的异常特征和激活，研究团队生成了Q、K、V的条目，分布为：N(0,1)+N(0,100)⋅Bernoulli(0.001)

也就是说，每个条目都服从均值为0、标准差为1的正态分布，但对于0.1%的条目，增加了一个独立的项，其标准差为10。然后测量均方根误差（RMSE）。

结果显示，在FP16中，由于中间结果（softmax）保留在FP32中，FlashAttention-2和FlashAttention-3的RMSE比标准Attention减少1.7倍。

FP8的标准Attention使用每个张量的缩放，matmul累加器在FP32中，中间softmax结果保留在FP16中。由于块量化和非相干处理，FP8中的FlashAttention-3比这个基线更准确2.6倍。

最后，论文还表示目前工作专注于Hopper架构，后续将推广到其他硬件。

除了英伟达为研究提供了技术支持外，Meta、Together AI和普林斯顿大学为研究提供了计算支持。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

奶奶跨越5000公里探望5胞胎泪洒现场

潇湘晨报 2026-05-21 23:13:17
93 跟贴 93
极目调查丨50余亩大蒜歉收疑云：22家农户使用同款菌肥，最高减产率达94%，经销商找厂家讨说法反被殴

极目新闻 2026-05-21 18:33:42
420 跟贴 420

水蜜桃饮品中水蜜桃添加量0.01克，康师傅回应称符合标准

南方都市报 2026-05-21 19:55:57
1117 跟贴 1117

官方辟谣怀化学院招收100名印度留学生：系3人来一民营医院开展中医文化交流与学习活动，该校从未招收来自印度的留学生

扬子晚报 2026-05-21 18:44:38
707 跟贴 707
江苏一市拟入选中央财政支持名单

扬子晚报 2026-05-22 11:22:41
10 跟贴 10

都市车界|不是全自动！特斯拉监督版FSD入华落地厘清技术价值与使用成本

齐鲁壹点 2026-05-22 10:26:31
302 跟贴 302

瑞幸咖啡酒精特调上架初中生轻松买到

界面新闻 2026-05-19 22:04:05
361 跟贴 361
C罗梅开二度，首夺沙特联赛冠军，职业生涯已斩获37冠

大象新闻 2026-05-22 08:46:04
351 跟贴 351

“张雪机车”车手德比斯直播首秀，张雪现身当“榜一大哥”并表示：“掏空家底了，老德今天够给你面子了吧”

封面新闻 2026-05-22 10:34:44
129 跟贴 129
俄外交部发言人：青年是未来俄中关系发展重要支撑

新华社 2026-05-21 22:08:04
195 跟贴 195
NBA｜詹姆斯：最快6月决定去向

北青网-北京青年报 2026-05-22 12:50:35
91 跟贴 91
上海外摆位出新规：人行道剩余宽度不少于2米，公园绿地首次允许设外摆

上观新闻 2026-05-22 13:01:20
9 跟贴 9
日经225指数涨幅扩大至2.3%

每日经济新闻 2026-05-22 10:28:53
65 跟贴 65
法国政府宣布新增7.1亿欧元援助

每日经济新闻 2026-05-22 08:21:36
0 跟贴 0
山姆会员费成自助餐费？货架现骨头残渣和空瓶，在华67家店被呼吁约束“薅羊毛”

界面新闻 2026-05-22 13:50:31
1 跟贴 1
记者四进宣恩白水河：全村的电通了，比电更早通的是人心

极目新闻 2026-05-22 07:38:29
45 跟贴 45
河南一景区现“爬不动了吧哈哈哈哈”标语，游客感觉不被尊重，景区：已撤除，本意是缓解爬山压力

极目新闻 2026-05-19 14:48:26
0 跟贴 0
美退役中将接受采访画面引争议颈部怪异被质疑戴面具

环球网资讯 2026-05-22 13:44:12
0 跟贴 0
康师傅每日C饮料被指虚假宣传，5款椰子水疑似加水加糖，温州杨梅种植户在包装上附身份证

知食君说 2026-05-22 16:55:33
0 跟贴 0
无锡烟草等多部门联动斩断校园周边“上头电子烟”黑链

金台资讯 2026-05-22 16:53:58
0 跟贴 0
摩托车“戴口罩”上二环高架！驾驶员1小时后被抓：罚款450元，驾驶证记11分

极目新闻 2026-05-22 16:56:49
0 跟贴 0
有毒，千万别摘！南京街头已出现

环球网资讯 2026-05-22 14:47:11
0 跟贴 0

老股民真的绝望了！

贩财局

2026-05-22 16:26:04

U17世界杯分组：中国队获上上签，澳大利亚入死亡组

U17世界杯分组：中国队获上上签，澳大利亚入死亡组

李橑在北漂

2026-05-22 14:49:08

“你考得越好，对我越没用！”女儿考倒数第一，父亲反向劝学火了

“你考得越好，对我越没用！”女儿考倒数第一，父亲反向劝学火了

妍妍教育日记

2026-05-18 18:00:58

今天又涨成不想上班了

曹多鱼的财经世界

2026-05-22 14:51:38

人为什么要戒色

今夜无局

2026-04-20 16:37:17

广东补强天赐良机！前CBA状元主动请缨，2米07蓝领完美接班王少杰

广东补强天赐良机！前CBA状元主动请缨，2米07蓝领完美接班王少杰

顺静自然

2026-05-22 12:33:23

“像在山姆吃起了自助餐”！新开业的山姆货架上出现吃剩的鸡骨头、空瓶子，客服回应...

“像在山姆吃起了自助餐”！新开业的山姆货架上出现吃剩的鸡骨头、空瓶子，客服回应...

北京商报

2026-05-22 14:40:12

过去 30 年都搞不定的底盘，为何理想蔚来比亚迪就能从玄学变标配

过去 30 年都搞不定的底盘，为何理想蔚来比亚迪就能从玄学变标配

电科技网

2026-05-20 15:44:40

意大利人拆完张雪机车破防了：设计太激进，欧洲日本根本学不来！

意大利人拆完张雪机车破防了：设计太激进，欧洲日本根本学不来！

阿芒娱乐说

2026-05-22 04:47:31

张嘉益再破天花板，给演艺圈提了个醒，和王海燕离婚传闻早有真相

张嘉益再破天花板，给演艺圈提了个醒，和王海燕离婚传闻早有真相

白面书誏

2026-05-22 14:47:26

立夏后少碰这3种菜！菜贩子自己从不吃，尤其第一种很多人天天买

立夏后少碰这3种菜！菜贩子自己从不吃，尤其第一种很多人天天买

阿天爱旅行

2026-05-22 13:25:27

被狗咬后不敢告诉爸妈，11岁女孩忍痛数月，发病两天去世

被狗咬后不敢告诉爸妈，11岁女孩忍痛数月，发病两天去世

三农老历

2026-05-22 10:44:52

6换1难以拒绝！字母下家基本确定？名宿：他赛季初就在当地看房了

6换1难以拒绝！字母下家基本确定？名宿：他赛季初就在当地看房了

你的篮球频道

2026-05-22 07:37:11

怪老鼠钻入鱼塘乱啃鱼，塘主崩溃：光咬不吃！不敢打怕是保护动物

怪老鼠钻入鱼塘乱啃鱼，塘主崩溃：光咬不吃！不敢打怕是保护动物

狸猫之一的动物圈

2026-05-22 09:48:00

“死了得了，我才22岁凭啥让我承担”：妈带2岁娃送外卖情绪崩溃

“死了得了，我才22岁凭啥让我承担”：妈带2岁娃送外卖情绪崩溃

汉史趣闻

2026-05-21 15:42:58

不可思议！特朗普：我们要加快修建速度，不然中方回访时就丢人了

不可思议！特朗普：我们要加快修建速度，不然中方回访时就丢人了

最新声音

2026-05-21 22:35:07

偷偷结婚生子？移民国外？李梓萌消失2月引争议，担心的事发生了

偷偷结婚生子？移民国外？李梓萌消失2月引争议，担心的事发生了

离离言几许

2026-03-16 16:31:23

董赤赤晒九千存款配五十四万欠款，网红滤镜还剩多少

董赤赤晒九千存款配五十四万欠款，网红滤镜还剩多少

阿废冷眼观察所

2026-05-22 16:17:30

扫黑涉案大剧《铁证》来袭！孙红雷领衔主演，配角雄厚，爆款潜质

扫黑涉案大剧《铁证》来袭！孙红雷领衔主演，配角雄厚，爆款潜质

八斗小先生

2026-05-22 11:14:41

皇上偷偷在宰相衣服烧了个洞，一年后发现洞还在，下令：打开国库

皇上偷偷在宰相衣服烧了个洞，一年后发现洞还在，下令：打开国库

铭记历史呀

2026-04-15 18:29:00

追踪人工智能动态

12674文章数 176467关注度

往期回顾全部

科技要闻

雷军：输给特斯拉不丢人

头条要闻

家属称89岁母亲养老院摔伤7天后离世民政部门拒回应

头条要闻

家属称89岁母亲养老院摔伤7天后离世民政部门拒回应

体育要闻

最糟糕裁判？他想要退役当市长

娱乐要闻

周也恋情曝光！对象身份不简单

财经要闻

证监会拟对老虎、富途、长桥依法严厉处罚

汽车要闻

转场视频

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

家居

手机

教育

公开课

本地新闻

用云锦的方式，打开江苏南京

家居要闻

低调传承温润沉静

手机要闻

8000mAh小米最大电池！小米17 Max图赏

教育要闻

高光时刻！这所市级示范高中“圈粉”全球

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版