网易首页 > 网易号 > 正文 申请入驻

首个基于统计学的线性注意力机制ToST,高分拿下ICLR Spotlight

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文第一作者为加州大学伯克利分校三年级博士生吴梓阳,导师为马毅教授。吴的主要研究方向为表征学习与多模态学习。该工作由多所学校与机构的研究者共同完成,包括加州大学伯克利分校、宾夕法尼亚大学、密歇根大学、清华大学、忆生科技、香港大学、约翰·霍普金斯大学等。据悉,马毅教授已受邀在今年四月的ICLR大会上就和此项成果相关的一系列白盒神经网络相关工作,进行为时一小时的主题报告(Keynote)。

Transformer 架构在过去几年中通过注意力机制在多个领域(如计算机视觉、自然语言处理和长序列任务)中取得了非凡的成就。然而,其核心组件「自注意力机制」 的计算复杂度随输入 token 数量呈二次方增长,导致资源消耗巨大,难以扩展到更长的序列或更大的模型。

Token Statistics Transformer (ToST) 提出了一种新的注意力机制,它的时间复杂度是线性的。通过对序列特征的统计建模,ToST 提高了序列处理任务中的效率。文章探讨了基于变分编码率缩减(Variational Rate Reduction, VRR)的框架,并通过实验验证了其在不同任务中的性能,通过革新传统注意力机制,解决了这些长期困扰 Transformer 架构的效率瓶颈。

ToST 也作为 Spotlight 论文,入选了 ICLR 2025 大会。

  • 论文标题:Token Statistics Transformer: Linear-Time Attention via Variational Rate Reduction
  • 论文地址:https://arxiv.org/abs/2412.17810
  • 项目主页:https://robinwu218.github.io/ToST/
  • 目前该工作已开源:https://github.com/RobinWu218/ToST

研究背景与动机

一直以来,自注意力机制依赖于对输入 token 两两相似性的计算,这一过程虽然有效,但其资源开销显著;尤其当输入 token 数量极大时,传统注意力机制(如 Transformer 中的全局注意力)在计算复杂度和内存使用上的瓶颈问题愈发显著。

为了应对这一挑战,本文提出了一种基于统计学特征的注意力机制:Token Statistics Self-Attention (TSSA)。它通过避免两两相似性的计算,仅依赖于 token 特征的统计量,显著降低了计算复杂度。

Token Statistics Transformer (ToST) 的架构。Token Statistics Self-Attention (TSSA) 运算符通过对投影后的 token 进行行标量化变换,从而实现了线性复杂度。

核心方法

ToST 的核心方法是通过特定的概率分布函数对输入序列进行建模,减少冗余信息并提取关键特征。具体包括:

1.统计特征提取:对序列中的每个 token 提取其统计特征。

2.变分编码率缩减:利用 VRR 框架对特征进行压缩,减少信息冗余。

3.线性复杂度实现:通过一系列优化,其计算复杂度从 O (n²) 降低为 O (n)。

ToST 的方法概述。在 CRATE 的理论基础上,ToST 通过几何空间的结构化特征实现 token 分组和映射。

网络架构的推导

该团队通过扩展先前的 CRATE 工作推导出网络架构。CRATE 显示,一种 Transformer 风格的架构可以通过 "白盒" 架构设计自然生成,其中网络的每一层都旨在实现最大编码率缩减目标 (MCR²) 的增量优化步骤。

具体来说,该团队推导了 MCR² 目标的一个新颖的变分形式,并表明通过对该变分目标进行展开梯度下降所得到的架构会引入一种新的注意力模块,称为 Token Statistics Self-Attention (TSSA)。TSSA 拥有线性的计算和内存复杂度,并从根本上不同于典型的注意力架构,其后者通过计算 token 之间的两两相似性来实现。

关键公式 MCR² 目标函数定义

技术细节

1. 线性时间注意力机制:Token Statistics Self-Attention (TSSA)

通过白盒设计方法(algorithmic unrolling),TSSA 从最大编码率减少(Maximal Coding Rate Reduction, MCR² )的变分形式中推导而来。

传统 Transformer 依赖于 pairwise 相似度计算,而 TSSA 则基于 token 特征的统计量构建注意力机制,其计算复杂度从 O (n²) 降低为 O (n),内存占用同样显著减少。

2. 创新性的网络结构:Token Statistics Transformer (ToST)

ToST 通过将 TSSA 替代标准的自注意力模块,不仅实现了显著的效率提升,还增强了模型的可解释性。

与传统模型不同,ToST 架构中的注意力操作基于统计量的低秩投影,通过减少不必要的计算路径,大幅优化了资源使用。

3. 理论支撑与数学推导

基于 MCR² 的变分形式,提出了一种新颖的压缩项公式,可对大型矩阵进行有效的特征提取。

通过设计数据相关的低秩投影,TSSA 在保留关键信息的同时,消除了冗余方向。

实验验证与性能分析

实验覆盖了自然言语处理(NLP)、计算机视觉(CV)等多个领域的任务,包括文本分类、机器翻译、图像识别等。结果表明,ToST 在保证模型性能的同时,大幅降低了计算资源消耗。

1. 计算和内存的线性复杂度分析

实验结果显示,与现有的注意力机制相比,TSSA 的时间和内存复杂度更低。具体而言,TSSA 的复杂度为 O (pn),显著优于传统 Transformer 的 O (n²)。

ToST 在计算时间和内存使用上均随序列长度实现线性扩展,使其显著优于标准 Transformer 的效率。如下:

复杂度分析对比

在 GPU 上评估的速度和内存使用对比

2. 视觉任务性能分析

在 ImageNet-1k 等主流视觉数据集上的实验表明,ToST 的性能可与传统 Transformer 架构(如 ViT 和 XCiT)相媲美,同时显著减少了模型参数量和计算开销。

迁移学习实验中,ToST 在 CIFAR、Oxford Flowers 等数据集上的表现进一步验证了其在多种视觉任务中的适应性。

结果展示了与传统 Transformer 相当的性能,同时在计算效率上显著更高。

3. 长序列任务和语言建模

  • 长序列任务

在长序列任务基准测试(如 Long-Range Arena)中,ToST 展现出优异的长距离建模能力,其性能超越了现有 Transformer 变体。

  • 语言建模

ToST 可以扩展并适用于多种任务场景,包括因果语言建模。针对语言建模,ToST 采用了一种因果版本的 TSSA,在多个数据集上实现了高效的预测能力。此外,即使在参数规模扩大的情况下,ToST 依然保持了优异的时间和内存效率。

NLP 任务中的表现

4. 有原理支持的模型设计

由于 ToST 是通过展开从学习目标中推导出来的,我们可以以有原理支持的方式逐层分析学习到的模型行为。

ToST 模型不同层次的 TSSA 输出的变分压缩项

5. 学习表示的可解释性分析

ToST 通过统计量驱动的注意力机制,使每一层的注意力操作更加透明,便于解释和分析。其分组机制展现了 token 特征在低维空间中的聚类效果,直观反映了模型的决策过程。

ToST 在无需复杂的自监督训练的情况下,自然生成了可解释的注意力模式。

倒数第二个全局类注意力层中最后一个头部的 [CLS] token 注意力图的比较

在 TSSA 层中,可视化估计的隶属矩阵 Π 的每一行(经过重塑后)

可能对未来产生的影响

1. 大模型的高效化

随着语言模型、生成模型和多模态模型规模的持续扩展,计算效率成为核心瓶颈。ToST 展示的统计量驱动注意力机制,为实现线性复杂度的大模型提供了可能性。

2. 推动 Transformer 的普适化应用

高效的注意力机制使得 ToST 能够更广泛地应用于资源受限场景,如边缘计算、实时系统、嵌入式设备等。这为人工智能技术从中心化计算向分布式、边缘化方向的发展奠定了基础。

3. 多模态融合的可能性

ToST 的低复杂度机制为处理多模态长序列任务提供了新的技术框架,使未来多模态大模型在生成、分析和交互中的效率显著提升。

4. 促进跨学科应用

ToST 对数学理论与工程实现的有机结合,不仅在传统 AI 任务中表现突出,还可能推动其在新兴领域(如量子计算、生物信息学和材料设计)中的应用。

Token Statistics Transformer (ToST) 重塑了注意力机制,它不需要计算 token 之间的两两交互,而是基于投影后 token 特征的二阶矩统计量构建,其基于数据压缩和表示学习的理论原则目标,为 Transformer 的发展开辟了新路径。其基于统计特性的低复杂度设计,不仅优化了现有架构的性能,还为未来大模型的高效化、多模态融合和跨学科应用提供了启示

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么“地下停车位”突然没人买了?内行人说出实情,恍然大悟

为什么“地下停车位”突然没人买了?内行人说出实情,恍然大悟

说故事的阿袭
2026-05-17 21:51:13
杭州一小区3楼租户长期有噪音,2楼小夫妻买震楼器反击,结果1楼报了警!派出所上门调解10次,次次不欢而散,最后请来了房东……

杭州一小区3楼租户长期有噪音,2楼小夫妻买震楼器反击,结果1楼报了警!派出所上门调解10次,次次不欢而散,最后请来了房东……

都市快报橙柿互动
2026-05-17 15:24:46
薄一波的两位亲家,一个是开国将军,一个官至副国级,他们是谁?

薄一波的两位亲家,一个是开国将军,一个官至副国级,他们是谁?

凡人侃史
2026-05-12 14:39:35
博士肄业生掀翻学术圈:揭露学术造假乱象,当斯文扫地唯硬骨擎天

博士肄业生掀翻学术圈:揭露学术造假乱象,当斯文扫地唯硬骨擎天

十为先生
2026-05-18 09:51:22
湖人休赛期第一弹!东契奇敲定计划,今夏放弃为国效力,全力养伤

湖人休赛期第一弹!东契奇敲定计划,今夏放弃为国效力,全力养伤

夜白侃球
2026-05-18 09:36:59
广汽董事长回应埃安被称作“网约车之王”:如果没高品质 就不会受到司机的欢迎

广汽董事长回应埃安被称作“网约车之王”:如果没高品质 就不会受到司机的欢迎

快科技
2026-05-17 11:52:04
唐伯虎真迹现身美国,世上仅此一件,网友:让当代书家汗颜

唐伯虎真迹现身美国,世上仅此一件,网友:让当代书家汗颜

幸福娃3790
2025-12-04 11:10:09
“给儿子吃得大脑缺氧了!”一顿全碳水早餐,暴露了宝妈的低认知

“给儿子吃得大脑缺氧了!”一顿全碳水早餐,暴露了宝妈的低认知

妍妍教育日记
2026-05-14 13:30:26
托卡耶夫这次能不能说服中国,将决定他身后的历史地位

托卡耶夫这次能不能说服中国,将决定他身后的历史地位

轩逸阿II
2026-04-11 14:44:56
瞒不住了!林诗栋背后姐姐大有来头,难怪实力封神,日本输得不冤

瞒不住了!林诗栋背后姐姐大有来头,难怪实力封神,日本输得不冤

星娱叨叨社
2026-05-15 15:37:40
出行注意!多地普降大雨 局地雷暴或有雾

出行注意!多地普降大雨 局地雷暴或有雾

环球网资讯
2026-05-18 08:43:55
火出圈!浙江老板娘和95后儿媳无滤镜测评衣服,有人寄来价值四五万的裙子,第一条视频播放量就破百万

火出圈!浙江老板娘和95后儿媳无滤镜测评衣服,有人寄来价值四五万的裙子,第一条视频播放量就破百万

极目新闻
2026-05-17 15:05:53
“老实人”任重甘愿当接盘侠,迎娶内娱第一海王,网友:天生绝配

“老实人”任重甘愿当接盘侠,迎娶内娱第一海王,网友:天生绝配

橙星文娱
2026-04-20 16:40:14
特朗普前脚刚走,普京后脚就到!中美俄这盘棋你看懂了吗?

特朗普前脚刚走,普京后脚就到!中美俄这盘棋你看懂了吗?

菁菁子衿
2026-05-17 10:32:52
内马尔:安帅决定我能否踢世界杯,若落选就当球迷为巴西加油

内马尔:安帅决定我能否踢世界杯,若落选就当球迷为巴西加油

懂球帝
2026-05-18 02:43:06
收手吧钟汉良,假发边明显、疲态尽显,谁要看50岁装嫩谈恋爱?

收手吧钟汉良,假发边明显、疲态尽显,谁要看50岁装嫩谈恋爱?

一娱三分地
2026-04-14 13:56:40
探访左权公交侧翻现场:位于急弯路段,车辆扎进山沟,现场遗留有航模、眼镜等丨红星独家

探访左权公交侧翻现场:位于急弯路段,车辆扎进山沟,现场遗留有航模、眼镜等丨红星独家

红星新闻
2026-05-17 21:57:56
男装像张若昀,女装像唐艺昕,《低智商犯罪》他火了还获得1称号

男装像张若昀,女装像唐艺昕,《低智商犯罪》他火了还获得1称号

娱君坠星河
2026-05-17 16:22:54
庆功宴上我迟迟未到,妻子当众训斥助理,助理一句话让她当场崩溃

庆功宴上我迟迟未到,妻子当众训斥助理,助理一句话让她当场崩溃

晓艾故事汇
2026-03-10 09:07:30
1076万买走张雪35%股份,两年估值暴涨100倍,凯越亏的从来不是钱

1076万买走张雪35%股份,两年估值暴涨100倍,凯越亏的从来不是钱

烈史
2026-05-12 17:55:13
2026-05-18 10:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13009文章数 142650关注度
往期回顾 全部

科技要闻

国产大模型集体更新后能力有多强?

头条要闻

媒体:特朗普就台湾问题说了"大实话" 绿营感受到震撼

头条要闻

媒体:特朗普就台湾问题说了"大实话" 绿营感受到震撼

体育要闻

生死战只拿3分的核心,还有留的必要吗?

娱乐要闻

小S晒全家福怀念大S,爷爷奶奶最疼姐姐

财经要闻

前4月工业生产较快增长 失业率5.3%

汽车要闻

小米YU7 GT定档5月21日19:00上市 跑车级轿跑SUV

态度原创

亲子
旅游
数码
教育
时尚

亲子要闻

孩子都自己知道拍素材了

旅游要闻

文旅新探|广州塔:从云端到江畔的岭南文化邂逅

数码要闻

三星拟用HBM技术打造本地AI手机平板 苹果也要跟进?

教育要闻

高考作文 中美关系新材料来啦,这次来访的新提法,一定要掌握

夏天裤子不用多买,提前准备几条休闲的阔腿裤,百搭舒适显瘦

无障碍浏览 进入关怀版