网易首页 > 网易号 > 正文 申请入驻

Sigmoid注意力一样强,苹果开始重新审视注意力机制

0
分享至



机器之心报道

机器之心编辑部

注意力是 Transformer 架构的关键部分,负责将每个序列元素转换为值的加权和。将查询与所有键进行点积,然后通过 softmax 函数归一化,会得到每个键对应的注意力权重。

尽管 SoftmaxAttn 中的 softmax 具有广泛的用途和有效性,但它并非没有局限性。例如,softmax 函数有时会导致注意力集中在少数几个特征,而忽略了其他信息。

近来,一些研究探索了 Transformer 中 softmax 注意力的替代方案,例如 ReLU 和 sigmoid 激活函数。最近,来自苹果的研究者重新审视了 sigmoid 注意力并进行了深入的理论和实验分析。

该研究证明:从理论上讲,与 softmax 注意力相比,具有 sigmoid 注意力的 Transformer 是通用函数逼近器,并且受益于改进的正则化



  • 论文地址:https://arxiv.org/pdf/2409.04431
  • 项目地址:https://github.com/apple/ml-sigmoid-attention
  • 论文标题:Theory, Analysis, and Best Practices for Sigmoid Self-Attention

该研究还提出了一种硬件感知且内存高效的 sigmoid 注意力实现 ——FLASHSIGMOID。FLASHSIGMOID 在 H100 GPU 上的推理内核速度比 FLASHATTENTION2 提高了 17%。

跨语言、视觉和语音的实验表明,合理归一化的 sigmoid 注意力与 softmax 注意力在广泛的领域和规模上性能相当,而之前的 sigmoid 注意力尝试无法实现这一点。

此外,该研究还用 sigmoid 内核扩展了 FLASHATTENTION2,将内核推理挂钟时间减少了 17%,将现实世界推理时间减少了 8%。

论文作者 Jason Ramapuram 表示:如果想让注意力快 18% 左右,你不妨试试 Sigmoid 注意力机制。他们用 Sigmoid 和基于序列长度的常量标量偏置取代了注意力机制中的传统 softmax。









igmoid 注意力理论基础

该研究对 SigmoidAttn 进行了分析,分析的目的主要有两个:(1)证明当 SigmoidAttn 取代 SoftmaxAttn 时,Transformer 架构仍然是一个通用函数逼近器;(2)通过计算 SigmoidAttn 的 Lipschitz 常数来恢复其规律性。

具有 Sigmoid 注意力的 Transformer 是通用逼近器吗?

经典 Transformer 可以将连续的序列到序列函数近似到任意精度,这一特性称为通用近似特性 (UAP,Universal Approximation Property)。UAP 非常受欢迎,因为它证明了架构的通用性和表示能力。由于 SigmoidAttn 修改了 Transformer 架构,因此从理论上保证这种修改不会影响表示能力并保留 UAP 的性能至关重要。该研究通过以下定理提供此保证。



结果表明,即使使用 SigmoidAttn,一系列 transformer 块也可以实现上下文映射。

Sigmoid 注意力的正则性

与神经网络中的任何层一样,SigmoidAttn 的正则性值得研究,因为它可以深入了解相应网络的鲁棒性及其优化的难易程度。

SigmoidAttn 正则性定理为:



结果证明,SigmoidAttn 的局部 Lipschitz 常数远低于 SoftmaxAttn 的最差局部 Lipschitz 常数。

FLASHSIGMOID:硬件感知实现

现代架构上的注意力计算往往会受到内存访问 IO 的限制。FLASHATTENTION 和 FLASHATTENTION2 通过优化 GPU 内存层次结构利用率来加速注意力计算。得益于这些方法提供的速度提升,该研究开发了 SigmoidAttn 的硬件感知实现 ——FLASHSIGMOID,采用了三个核心思路:

  • Tiling:注意力分而治之的方法:与 FLASHATTENTION 和 FLASHATTENTION2 类似,FLASHSIGMOID 并行处理输入部分以计算块中的注意力输出,有效地组合部分结果以生成最终的注意力输出。
  • 内核融合:与 FLASHATTENTION 和 FLASHATTENTION2 一样,FLASHSIGMOID 将 SigmoidAttn 的前向和后向传递的计算步骤实现为单个 GPU 内核,通过避免高带宽内存 (HBM) 上的中间激活具体化,最大限度地减少内存访问并提高内存效率。
  • 激活重计算:sigmoid 注意力的向后传递需要 sigmoid 激活矩阵,如果在 GPU HBM 上具体化,则会导致执行速度变慢和内存效率低下。FLASHSIGMOID 通过仅保留查询、键和值张量来解决这个问题,以便在向后传递期间重新计算 sigmoid 激活矩阵。尽管增加了 FLOPs,但事实证明,与具体化和保留注意力矩阵的替代方法相比,这种方法在挂钟时间上更快,并且内存效率更高。

实验

为了实验验证 SigmoidAttn,该研究在多个领域进行了评估:使用视觉 transformer 进行监督图像分类、使用 SimCLR 进行自监督图像表示学习、BYOL(Bootstrap Your Own Latent)和掩码自动编码器 (MAE) 以及自动语音识别 (ASR) 和自回归语言建模 (LM)。

该研究还在 TED-LIUM v3 上验证了 ASR 的序列长度泛化,在所有这些领域和算法中,该研究证明 SigmoidAttn 的性能与 SoftmaxAttn 相当(图 2 和 21),同时提供训练和推理加速。





该研究得出以下观察结果:

SigmoidAttn 对于没有偏置的视觉任务是有效的(MAE 除外),但依赖于 LayerScale 以无超参数的方式匹配基线 SoftmaxAttn(图 9-a)的性能。除非另有说明,否则为 SoftmaxAttn 呈现的所有结果也公平地添加了 LayerScale。



LM 和 ASR 对初始范数较为敏感。需要通过 (a) 相对位置嵌入进行调整;(b) 适当初始化 b 以实现相同效果 —— 允许使用任何位置嵌入。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4家银行将面临解散,存款取不出来?建议储户了解4点,存款更放心

4家银行将面临解散,存款取不出来?建议储户了解4点,存款更放心

飞花文史
2024-09-19 09:42:40
上海女排爆冷不敌天津!本土边攻太软!天津女排上演黑八奇迹

上海女排爆冷不敌天津!本土边攻太软!天津女排上演黑八奇迹

金毛爱女排
2024-09-20 00:12:05
女子占车位不成怒划新车后续:真容曝光,已被拘留,车主拒不和解

女子占车位不成怒划新车后续:真容曝光,已被拘留,车主拒不和解

洛洛女巫
2024-09-18 17:39:15
深夜传来三则重要消息,利空突袭,大A明天能延续反弹吗?

深夜传来三则重要消息,利空突袭,大A明天能延续反弹吗?

风风顺
2024-09-20 02:07:55
博主:艾克森回巴西做半月板手术 他和蓉城结束了,想回广州踢1年

博主:艾克森回巴西做半月板手术 他和蓉城结束了,想回广州踢1年

直播吧
2024-09-19 19:51:08
女排奥运冠军去世,享年70岁,一项荣誉成亚洲第一人

女排奥运冠军去世,享年70岁,一项荣誉成亚洲第一人

跑者排球视角
2024-09-19 10:08:41
张本智和兄妹回出生地!向日本市长表态,不认四川祖籍,早已忘本

张本智和兄妹回出生地!向日本市长表态,不认四川祖籍,早已忘本

三十年莱斯特城球迷
2024-09-18 17:08:27
国务院副总理任牵头人,这项机制将重启!

国务院副总理任牵头人,这项机制将重启!

政知新媒体
2024-09-19 20:45:32
刚刚,台风“普拉桑”登陆!暴雨蓝色预警!

刚刚,台风“普拉桑”登陆!暴雨蓝色预警!

江南晚报
2024-09-19 20:02:22
美国专家大胆假设, 一旦美国入侵中国,打败中国需要几个小时?

美国专家大胆假设, 一旦美国入侵中国,打败中国需要几个小时?

文雅笔墨
2024-09-19 17:54:50
“最贵”国家一级演员,飞机接送上下班,她出镜3分钟被观众喜爱

“最贵”国家一级演员,飞机接送上下班,她出镜3分钟被观众喜爱

华人星光
2024-09-19 17:09:47
广州“空姐楼”和“空姐村”,颠覆你的想象

广州“空姐楼”和“空姐村”,颠覆你的想象

楼主说楼市
2024-09-19 20:31:42
离婚19年,二人在东莞高档小区相遇,男子是房主,女子是清洁工

离婚19年,二人在东莞高档小区相遇,男子是房主,女子是清洁工

红豆讲堂
2024-08-30 10:15:27
央视《暗夜与黎明》的最大败笔演员,换掉他,这部剧就近乎完美!

央视《暗夜与黎明》的最大败笔演员,换掉他,这部剧就近乎完美!

娱乐圈笔娱君
2024-09-19 14:03:41
男篮抵达西安!226大中锋上首发,付豪爆发,郭士强拒绝连败

男篮抵达西安!226大中锋上首发,付豪爆发,郭士强拒绝连败

小涛体育
2024-09-19 16:11:08
曾志伟:兄弟们,中计了!没想到直播间唯一的香港货就是我自己

曾志伟:兄弟们,中计了!没想到直播间唯一的香港货就是我自己

大何向东流
2024-09-19 00:01:09
男篮输球,胡明轩带头训话,杨瀚森却扭头就走,还好郭士强叫住他

男篮输球,胡明轩带头训话,杨瀚森却扭头就走,还好郭士强叫住他

嘴炮体坛
2024-09-19 11:29:43
台风来袭!浙江一领导的穿着被人举报,将人性的恶展现得淋漓尽致

台风来袭!浙江一领导的穿着被人举报,将人性的恶展现得淋漓尽致

小盖纪实
2024-09-19 14:40:41
宁可开战,也不让中国崛起!白宫看得很清楚:中国起,美国亡

宁可开战,也不让中国崛起!白宫看得很清楚:中国起,美国亡

利刃号
2024-09-19 16:52:09
中方专机还未落地,欧盟拒绝中方提议,不到24小时,美国追加制裁

中方专机还未落地,欧盟拒绝中方提议,不到24小时,美国追加制裁

兵说
2024-09-19 00:39:12
2024-09-20 04:54:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
9477文章数 142014关注度
往期回顾 全部

科技要闻

乐道L60价格公布:整车购买20.69万元起

头条要闻

招行再回应"58页PPT举报管培生男友"事件:已开除

头条要闻

招行再回应"58页PPT举报管培生男友"事件:已开除

体育要闻

全村只有282人 却拥有一支顶级联赛球队

娱乐要闻

黄晓明官宣与叶珂恋情:我们在一起了

财经要闻

存量房贷利率调整“猜想”

汽车要闻

预售价33.98万 腾势Z9预计第四季度上市

态度原创

时尚
艺术
游戏
亲子
公开课

看起来年轻20岁,需要做多少努力?(时装周篇)

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

《战神:诸神黄昏》现已解锁 需绑定PSN账户

亲子要闻

萌娃脑袋卡进栏杆里喊妈妈求助,小手蒙住眼睛那一刻太搞笑!

公开课

改变人生的10件小事

无障碍浏览 进入关怀版