网易首页 > 网易号 > 正文 申请入驻

Flash Attention如何优化Transformer计算复杂度

0
分享至

Transformer 模型的计算复杂度随着输入序列长度的增加,呈平方的增加,那么这样就会消耗大量的内存资源,如何降低Transformer 模型的计算复杂度?



Flash Attention是一种在Transformer模型中优化注意力机制(Attention Mechanism)的技术,它的主要目标是减少计算成本和内存需求,同时保持或提升模型的性能。传统的自我注意力层的计算复杂度为O(N^2),其中N是序列长度,这是因为每个位置的输出都需要与序列中的所有其他位置进行交互。

Flash Attention通过以下方式降低了计算复杂度:

1 局部注意力机制

Flash Attention利用了序列中信息的局部相关性,这意味着一个位置上的token通常与附近的token有更强的相关性。因此,它可以通过限制注意力窗口的大小来减少计算量,只考虑固定数量的前后token进行注意力计算。

2. 分块技术

将输入序列分成多个小块,然后在这些小块之间进行注意力计算。这种方法减少了全序列计算的需求,从而降低了计算复杂度。

具体实现:

将 Q, K, V 矩阵分割成多个小块,块大小根据 SRAM 的容量确定。

外循环遍历 K 和 V 的块,将其加载到 SRAM 中。

内循环遍历 Q 的块,也加载到 SRAM 中。

在 SRAM 中计算每个 Q 块与当前 K 块的局部注意力分数 Sij,并进行 softmax 和其他必要的计算。

更新全局统计量,并计算最终的注意力输出 O。



3. 优化 softmax 计算

Softmax 的 tiling 展开:Flash Attention 采用了 softmax 的 tiling 展开技术,支持 softmax 的拆分并行计算,从而提升计算效率。这种技术可以更有效地利用 GPU 的并行计算能力。

Safe softmax:为了处理 softmax 中 e^{x_i} 容易溢出的问题,Flash Attention 引入了 safe softmax。通过对每个 x_i 减去一个最大值 m(即 m = max^N_{j=1}(x_j)),使得 x_i - m ≪ 0,这时幂操作符对负数输入的计算是准确且安全的。

4. 稀疏注意力

只选择部分键值对进行注意力计算,而不是计算所有可能的键值对,这可以显著减少计算量。

5. 内存效率优化

传统注意力机制在计算过程中需要存储全部的Q(Query)、K(Key)、V(Value)矩阵以及注意力权重矩阵,而Flash Attention通过优化算法,可以在不存储完整注意力矩阵的情况下计算输出,从而大大节省了内存。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苏州大量外企撤资跑路?当地辟谣后,评论区一言难尽!咋回事?

苏州大量外企撤资跑路?当地辟谣后,评论区一言难尽!咋回事?

你食不食油饼
2024-12-23 19:58:45
程潇出席时尚盛典,穿人鱼透视装太火辣,年度潜力演员实至名归

程潇出席时尚盛典,穿人鱼透视装太火辣,年度潜力演员实至名归

南城无双
2024-12-23 23:36:51
疯狂的罚没收入,前11月3.7万亿,惊动了国务院和人民日报

疯狂的罚没收入,前11月3.7万亿,惊动了国务院和人民日报

老闫侃史
2024-12-23 14:00:03
白百何的性感才叫不露声色!穿皮衬只系2粒扣,隐隐约约最迷人

白百何的性感才叫不露声色!穿皮衬只系2粒扣,隐隐约约最迷人

南城无双
2024-12-18 00:34:18
特朗普威胁“收回”巴拿马运河

特朗普威胁“收回”巴拿马运河

新京报
2024-12-22 16:53:44
华为SATA SSD ES3521A V7发布:最高3.84TB 厚度减半还更快

华为SATA SSD ES3521A V7发布:最高3.84TB 厚度减半还更快

快科技
2024-12-23 23:50:08
琼斯:CBA外援被裁后,当年不能签其他球队的规则应该改一改

琼斯:CBA外援被裁后,当年不能签其他球队的规则应该改一改

雷速体育
2024-12-23 17:38:09
华为三折叠价格出现崩盘,有商家直接优惠1000

华为三折叠价格出现崩盘,有商家直接优惠1000

映射生活的身影
2024-12-21 09:51:01
受权发布|中共中央办公厅 国务院办公厅关于加快建设统一开放的交通运输市场的意见

受权发布|中共中央办公厅 国务院办公厅关于加快建设统一开放的交通运输市场的意见

新华社
2024-12-23 18:20:06
前戏的艺术:提升性生活质量的三大核心原则

前戏的艺术:提升性生活质量的三大核心原则

智见派
2024-12-21 20:42:53
最佳防守的D杯!

最佳防守的D杯!

风子说个球
2024-12-23 14:06:21
41岁吴昕瘦身后长成国际脸,穿吊带裙配齐刘海,越来越有魅力

41岁吴昕瘦身后长成国际脸,穿吊带裙配齐刘海,越来越有魅力

南城无双
2024-12-22 23:41:11
百亿豪门梦破碎!香港女歌手与富三代分手,相恋一年已见家长

百亿豪门梦破碎!香港女歌手与富三代分手,相恋一年已见家长

南城无双
2024-12-23 00:20:58
山东41岁油腻大叔失业1年半崩溃 发视频吐槽:我到底还能做啥?

山东41岁油腻大叔失业1年半崩溃 发视频吐槽:我到底还能做啥?

阿SIR观察
2024-10-23 05:20:03
当年套现15亿,卖掉摩拜单车的创始人胡玮炜,如今生活怎样了?

当年套现15亿,卖掉摩拜单车的创始人胡玮炜,如今生活怎样了?

博学老K杂谈
2024-11-23 19:50:02
最新台北速报:必须只能是中国台北或中国台湾省,否则遣返!

最新台北速报:必须只能是中国台北或中国台湾省,否则遣返!

星辰故事屋
2024-12-23 22:20:27
2025款全新一代途观曝光,2.0T全时四驱,内外焕新全面升级,堪称历代最美

2025款全新一代途观曝光,2.0T全时四驱,内外焕新全面升级,堪称历代最美

沙雕小琳琳
2024-12-23 16:33:06
当家里的老人突然变得不讲理,说出很多难听的话,你要考虑他是不是患上了抑郁症

当家里的老人突然变得不讲理,说出很多难听的话,你要考虑他是不是患上了抑郁症

果壳
2024-12-23 16:27:00
为了提高成绩,现在不少家长在逼孩子吃药

为了提高成绩,现在不少家长在逼孩子吃药

清晖有墨
2024-12-23 21:28:31
突然宣布:停止运营!可退款

突然宣布:停止运营!可退款

FM93浙江交通之声
2024-12-23 20:52:37
2024-12-24 00:35:00
人工智能研究所AI
人工智能研究所AI
python人工智能,大数据,人生苦短,我用python
152文章数 767关注度
往期回顾 全部

科技要闻

京东公布年终奖:绝大多数员工5-8个月月薪

头条要闻

重庆一女子刚卖车便反悔 吃住在车上长达90个小时

头条要闻

重庆一女子刚卖车便反悔 吃住在车上长达90个小时

体育要闻

年终进球盛宴!这法老冲着金球奖来的?

娱乐要闻

影版《射雕》最新预告!肖战版郭靖大获好评

财经要闻

网传36家公司将被退市 证监会回应

汽车要闻

柴油才对味 大通星际X 2.5T舒适得不像皮卡

态度原创

亲子
艺术
房产
手机
军事航空

亲子要闻

男子丢球小孩哥踢,丝滑倒挂金钩天赋溢出屏幕。

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

房产要闻

中交、保利、招商压轴拿地!2024三亚疯狂卖地193亿!

手机要闻

OPPO Find X8 Ultra再次被确认:影像细节已清晰,核心配置没悬念

军事要闻

专家解读美军为何会击落己方战机

无障碍浏览 进入关怀版