网易首页 > 网易号 > 正文 申请入驻

Sigmoid注意力一样强,苹果开始重新审视注意力机制

0
分享至



机器之心报道

机器之心编辑部

注意力是 Transformer 架构的关键部分,负责将每个序列元素转换为值的加权和。将查询与所有键进行点积,然后通过 softmax 函数归一化,会得到每个键对应的注意力权重。

尽管 SoftmaxAttn 中的 softmax 具有广泛的用途和有效性,但它并非没有局限性。例如,softmax 函数有时会导致注意力集中在少数几个特征,而忽略了其他信息。

近来,一些研究探索了 Transformer 中 softmax 注意力的替代方案,例如 ReLU 和 sigmoid 激活函数。最近,来自苹果的研究者重新审视了 sigmoid 注意力并进行了深入的理论和实验分析。

该研究证明:从理论上讲,与 softmax 注意力相比,具有 sigmoid 注意力的 Transformer 是通用函数逼近器,并且受益于改进的正则化



  • 论文地址:https://arxiv.org/pdf/2409.04431
  • 项目地址:https://github.com/apple/ml-sigmoid-attention
  • 论文标题:Theory, Analysis, and Best Practices for Sigmoid Self-Attention

该研究还提出了一种硬件感知且内存高效的 sigmoid 注意力实现 ——FLASHSIGMOID。FLASHSIGMOID 在 H100 GPU 上的推理内核速度比 FLASHATTENTION2 提高了 17%。

跨语言、视觉和语音的实验表明,合理归一化的 sigmoid 注意力与 softmax 注意力在广泛的领域和规模上性能相当,而之前的 sigmoid 注意力尝试无法实现这一点。

此外,该研究还用 sigmoid 内核扩展了 FLASHATTENTION2,将内核推理挂钟时间减少了 17%,将现实世界推理时间减少了 8%。

论文作者 Jason Ramapuram 表示:如果想让注意力快 18% 左右,你不妨试试 Sigmoid 注意力机制。他们用 Sigmoid 和基于序列长度的常量标量偏置取代了注意力机制中的传统 softmax。









igmoid 注意力理论基础

该研究对 SigmoidAttn 进行了分析,分析的目的主要有两个:(1)证明当 SigmoidAttn 取代 SoftmaxAttn 时,Transformer 架构仍然是一个通用函数逼近器;(2)通过计算 SigmoidAttn 的 Lipschitz 常数来恢复其规律性。

具有 Sigmoid 注意力的 Transformer 是通用逼近器吗?

经典 Transformer 可以将连续的序列到序列函数近似到任意精度,这一特性称为通用近似特性 (UAP,Universal Approximation Property)。UAP 非常受欢迎,因为它证明了架构的通用性和表示能力。由于 SigmoidAttn 修改了 Transformer 架构,因此从理论上保证这种修改不会影响表示能力并保留 UAP 的性能至关重要。该研究通过以下定理提供此保证。



结果表明,即使使用 SigmoidAttn,一系列 transformer 块也可以实现上下文映射。

Sigmoid 注意力的正则性

与神经网络中的任何层一样,SigmoidAttn 的正则性值得研究,因为它可以深入了解相应网络的鲁棒性及其优化的难易程度。

SigmoidAttn 正则性定理为:



结果证明,SigmoidAttn 的局部 Lipschitz 常数远低于 SoftmaxAttn 的最差局部 Lipschitz 常数。

FLASHSIGMOID:硬件感知实现

现代架构上的注意力计算往往会受到内存访问 IO 的限制。FLASHATTENTION 和 FLASHATTENTION2 通过优化 GPU 内存层次结构利用率来加速注意力计算。得益于这些方法提供的速度提升,该研究开发了 SigmoidAttn 的硬件感知实现 ——FLASHSIGMOID,采用了三个核心思路:

  • Tiling:注意力分而治之的方法:与 FLASHATTENTION 和 FLASHATTENTION2 类似,FLASHSIGMOID 并行处理输入部分以计算块中的注意力输出,有效地组合部分结果以生成最终的注意力输出。
  • 内核融合:与 FLASHATTENTION 和 FLASHATTENTION2 一样,FLASHSIGMOID 将 SigmoidAttn 的前向和后向传递的计算步骤实现为单个 GPU 内核,通过避免高带宽内存 (HBM) 上的中间激活具体化,最大限度地减少内存访问并提高内存效率。
  • 激活重计算:sigmoid 注意力的向后传递需要 sigmoid 激活矩阵,如果在 GPU HBM 上具体化,则会导致执行速度变慢和内存效率低下。FLASHSIGMOID 通过仅保留查询、键和值张量来解决这个问题,以便在向后传递期间重新计算 sigmoid 激活矩阵。尽管增加了 FLOPs,但事实证明,与具体化和保留注意力矩阵的替代方法相比,这种方法在挂钟时间上更快,并且内存效率更高。

实验

为了实验验证 SigmoidAttn,该研究在多个领域进行了评估:使用视觉 transformer 进行监督图像分类、使用 SimCLR 进行自监督图像表示学习、BYOL(Bootstrap Your Own Latent)和掩码自动编码器 (MAE) 以及自动语音识别 (ASR) 和自回归语言建模 (LM)。

该研究还在 TED-LIUM v3 上验证了 ASR 的序列长度泛化,在所有这些领域和算法中,该研究证明 SigmoidAttn 的性能与 SoftmaxAttn 相当(图 2 和 21),同时提供训练和推理加速。





该研究得出以下观察结果:

SigmoidAttn 对于没有偏置的视觉任务是有效的(MAE 除外),但依赖于 LayerScale 以无超参数的方式匹配基线 SoftmaxAttn(图 9-a)的性能。除非另有说明,否则为 SoftmaxAttn 呈现的所有结果也公平地添加了 LayerScale。



LM 和 ASR 对初始范数较为敏感。需要通过 (a) 相对位置嵌入进行调整;(b) 适当初始化 b 以实现相同效果 —— 允许使用任何位置嵌入。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越扒越炸!黄晓明官宣恋情二次修改文案,叶珂9年前发文被批心机

越扒越炸!黄晓明官宣恋情二次修改文案,叶珂9年前发文被批心机

吾爱纪实
2024-09-19 16:33:36
伟大2-0!女足U20世界杯日本创纪录:连续3届进决赛,和朝鲜争冠

伟大2-0!女足U20世界杯日本创纪录:连续3届进决赛,和朝鲜争冠

体育知多少
2024-09-19 10:59:10
1949年贺子珍搬去上海,陈毅向她转达毛主席态度,贺子珍听完哭了

1949年贺子珍搬去上海,陈毅向她转达毛主席态度,贺子珍听完哭了

正史笔记
2024-09-18 20:40:17
名记爆料Woj退休原因:几乎全年无休 交易日每晚只能睡三个小时

名记爆料Woj退休原因:几乎全年无休 交易日每晚只能睡三个小时

雷速体育
2024-09-19 09:27:07
退休7年后,吴清雄被查

退休7年后,吴清雄被查

政知新媒体
2024-09-19 18:11:24
现在是9月19号中午,刚刚传来1个惊人大消息,要来大动作了吗?

现在是9月19号中午,刚刚传来1个惊人大消息,要来大动作了吗?

股市皆大事
2024-09-19 09:58:34
震碎三观的八卦,你敢说我都不敢听

震碎三观的八卦,你敢说我都不敢听

娱乐洞察点点
2024-09-19 13:30:03
中央批准,陆伟履新

中央批准,陆伟履新

新京报政事儿
2024-09-19 09:42:23
这3味药被称为肿瘤克星,可以治疗多种癌症,很多老中医都推荐!

这3味药被称为肿瘤克星,可以治疗多种癌症,很多老中医都推荐!

肿瘤科王红军
2024-09-17 15:34:12
香港最好命的原配,结婚22年丈夫从无绯闻,身价百亿只生一女

香港最好命的原配,结婚22年丈夫从无绯闻,身价百亿只生一女

洲洲影视娱评
2024-09-19 15:29:28
张玉军被查

张玉军被查

上观新闻
2024-09-19 17:39:07
华为被曝研发 ADS4.0 平台,激光雷达等核心零部件成本进一步下降

华为被曝研发 ADS4.0 平台,激光雷达等核心零部件成本进一步下降

IT之家
2024-09-18 16:58:09
“断崖式”降温,最低12℃!山东最新预警来了

“断崖式”降温,最低12℃!山东最新预警来了

鲁中晨报
2024-09-19 16:04:13
国家发改委:配合推动相关部门研究提出户籍制度改革、随迁子女义务教育等具体政策措施

国家发改委:配合推动相关部门研究提出户籍制度改革、随迁子女义务教育等具体政策措施

澎湃新闻
2024-09-19 17:08:30
黎巴嫩传呼机爆炸,幸亏中方早有防备,两通电话响起,此事不简单

黎巴嫩传呼机爆炸,幸亏中方早有防备,两通电话响起,此事不简单

青年的背包
2024-09-19 17:49:40
恭喜国足!欧洲冠军名帅二进宫上位,弃用3将

恭喜国足!欧洲冠军名帅二进宫上位,弃用3将

世界从不欣赏眼泪
2024-09-19 07:32:22
北京今夜至明天将迎明显降雨降温过程,明天最高气温仅19℃

北京今夜至明天将迎明显降雨降温过程,明天最高气温仅19℃

新京报
2024-09-19 13:09:12
疯了吧,尺度这么大

疯了吧,尺度这么大

电影爬虫
2024-09-16 22:22:38
编造涉“刘某杰遇害案”不实信息,60岁男子被长沙警方行拘

编造涉“刘某杰遇害案”不实信息,60岁男子被长沙警方行拘

新京报
2024-09-19 21:48:23
湖南3名干部,被查

湖南3名干部,被查

大爱三湘
2024-09-19 20:44:23
2024-09-19 22:40:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9477文章数 142013关注度
往期回顾 全部

科技要闻

乐道L60价格公布:整车购买20.69万元起

头条要闻

杜特尔特女儿与马科斯"断交":后年将宣布选举计划

头条要闻

杜特尔特女儿与马科斯"断交":后年将宣布选举计划

体育要闻

全村只有282人 却拥有一支顶级联赛球队

娱乐要闻

黄晓明官宣与叶珂恋情:我们在一起了

财经要闻

存量房贷利率调整“猜想”

汽车要闻

预售价33.98万 腾势Z9预计第四季度上市

态度原创

艺术
健康
时尚
游戏
手机

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

炉甘石洗剂,凭啥成了止痒全能王?

岁月不败美人,70岁正是闯的年纪!

没法报仇了?玩家猜测杨奇暗示鹤仙人不能打

手机要闻

ColorOS 15:突然定档!OPPO Find X8系列:有望10月21日发布!

无障碍浏览 进入关怀版