网易首页 > 网易号 > 正文 申请入驻

从根本上改变语言模型!全新架构TTT超越Transformer和Mamba,长上下文中性能受限问题或被彻底解决,12人研究团队中一半是华人

0
分享至

从2017年Google Brain团队推出Transformer架构逐步取代长短期记忆(LSTM)等“循环神经网络(RNN)模型”成为首选模型,到后来首个线性时间序列架构Mamba推出又对Transformer架构构成挑战,大语言模型底层架构的迭代正在迅速改变人们对于AI的认知和理解。

美东时间周一(7月8日),一种全新的大语言模型(LLM)架构有望代替至今在AI领域如日中天的Transformer,性能也比Mamba更好。


图片来源:arXiv

在预印本网站arXiv上发布的一篇论文中,斯坦福大学、加州大学伯克利分校、加州大学圣地亚哥分校和Meta的学者提出了一种全新架构,希望能用机器学习模型取代RNN的隐藏状态。这个架构通过对输入token进行梯度下降来压缩上下文,被称为“测试时间训练层(Test-Time-Training layers,简称TTT层)”。“共同一作”加州大学伯克利分校的Karen Dalal表示,我相信这将从根本上改变语言模型

但对于该论文,也有人提出质疑,认为只有30亿~70亿参数的可用演示模型才足以了解其实用性。

TTT-Linear 和 TTT-MLP 均能匹敌或击败Transformer和Mamba

过去这些年来,对大模型的研究和理解都绕不开“循环神经网络(下称RNN)”。RNN是一种深度学习模型,由许多相互连接的组件组成,经过训练后可以处理顺序数据输入并将其转换为特定的顺序数据输出,例如将文本从一种语言翻译成另一种语言。顺序数据是指单词、句子或时间序列数据之类的数据,其中的顺序分量根据复杂的语义和语法规则相互关联。

而“隐藏状态”是RNN模型中的一个关键概念。它可以看作是网络在每个时间步骤上的“记忆”,存储了之前时间步骤中的信息,并通过时间在不同步骤之间传递。隐藏状态可以捕捉到序列中的长期依赖性,从而使模型能够理解整个序列的上下文。

在传统的RNN中,隐藏状态的固定大小表达能力受限,也不好并行训练。例如,像Mamba这样的RNN层,会随着时间的推移压缩成一个固定大小的状态,它们虽然效率很高,但性能受限于其表达能力。

该论文团队的对TTT层的想法来自于:与其让RNN隐藏状态被动地储存信息,不如让它主动学习。作者们在论文中称,他们设计的“TTT层”突破了“RNN层”在长上下文中性能受限的问题。

他们在1.25亿~ 13亿个参数规模的大模型上进行一系列的对比后发现,他们设计的TTT-Linear(线性模型)和TTT-MLP(注:MLP为多层感知器,是一种基于前馈神经网络的深度学习模型)均能匹敌或击败最强大的Transformers和 Mamba架构方法。

论文称,隐藏状态时线性模型的TTT-Linear表现超过了Transformer和Mamba,用更少的算力达到更低的困惑度(下图左),也能更好利用长上下文(下图右)。此外,隐藏状态时MLP模型的TTT-MLP在32k长上下文时表现还要更好。


图片来源:arXiv

这不仅在理论上是线性的复杂度,而且实际运行时间也更快。


图片来源:arXiv

12人团队半数为华人,排首位的“共同一作”为斯坦福博士后

本篇论文一共有12名作者,有一半(6人)成员为华人。其中,排名第一的“一作”Yu Sun博士毕业于加州大学伯克利分校电气工程与计算机科学系,目前是斯坦福大学的博士后,研究重点便是TTT的算法架构。排在第二位的“一作”Xinhao Li为加州大学圣地亚哥分校研二学生,其研究集中在深度学习和计算机视觉,“三作”之一的Xiaolong Wang为其导师。


Yu Sun 图片来源:个人主页

论文称,Yu Sun于2022年11月便开始和Xinhao Li做这个项目,2023年6月份开始进入全职工作状态。Yu Sun提出了项目的概念框架,设计了小批量的TTT层和“双重形式”,在他人的帮助下撰写了论文,并领导了整个团队的日常运作和实验。

该研究“一作”之一 、加州大学伯克利分校信息工程学系学生Karen Dalal在X上表示,他相信这将从根本上改变语言模型。他称,“我们设计了一个新的架构,用机器学习模型取代了RNN的隐藏状态。该模型通过输入标记的实际梯度下降来压缩上下文。我们将我们的方法称为‘测试时间训练层’。TTT层通过表达性记忆解锁了线性复杂性架构,使我们能够在上下文中用数百万(有朝一日甚至数十亿)个token来训练大语言模型。”


图片来源:X

Karen Dalal还称,“TTT-Linear已经比最快的SSM(注:指‘状态空间模型’)更快,并且在大小和上下文方面具有很强的可扩展性。这个架构内的探索空间是巨大的,我们的论文只是迈出了一小步。


图片来源:X

该论文的“三作”之一、加州大学伯克利分校博士后,现加州大学圣地亚哥分校电气与计算机工程助理教授Xiaolong Wang则在X上激动地称:“我真不敢相信这终于发生了。”

“TTT层理念是我们已经研究了5年的架构……今天的TTT和我刚开始做博士后研究的时候已经完全不同了,它已经是一个网络层,用机器学习模型取代了RNN的隐藏状态。我们的TTT层并不是使用特定的向量来表达记忆,而是维护一个小型神经网络来压缩输入标记……这种架构目前应用于语言建模,但想象一下将其应用于视频。未来,在长视频建模时,我们可以对帧进行密集采样,而不是以1 FPS的速度采样,这些密集的帧对Transformer架构来说是负担,但对TTT层来说却是福音。因为它们本质上只是在TTT内训练更好网络的‘时间增强’。


图片来源:X

《每日经济新闻》记者注意到,在Xiaolong Wang的推文下方,也有不少质疑者,例如,一个名为John Bollenbacher的用户称,“这是一个有希望的迹象,但我认为我需要看到2.5个以上的示例才能认真对待。而一个30亿~70亿参数的可用演示模型才可以让我们了解它的实用性。”

对此,Xiaolong Wang回复称,“(我们正)朝着那个方向努力。我希望通过这个版本我们可以得到更多的计算……就目前而言,学术实验室仍然很难训练70亿参数的模型。


图片来源:X

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
朱莉与小9岁黑人男友酒店密会,颜值没比皮特高,但孩子们能接受

朱莉与小9岁黑人男友酒店密会,颜值没比皮特高,但孩子们能接受

南城无双
2024-11-28 13:48:09
极氪高管发销量榜引小鹏高管不满:这么贴心的挑出1000台?

极氪高管发销量榜引小鹏高管不满:这么贴心的挑出1000台?

三言科技
2024-11-28 08:33:25
人事|姜涵康任上海市人大常委会预算工委副主任

人事|姜涵康任上海市人大常委会预算工委副主任

上观新闻
2024-11-28 18:25:14
真被普京说对了:特朗普对中国的第一步棋就下错了,反噬来得太快

真被普京说对了:特朗普对中国的第一步棋就下错了,反噬来得太快

千里持剑
2024-11-28 15:17:55
李琳和小8岁老公机场被拍,穿3万大衣又老又胖,经超却给足安全感

李琳和小8岁老公机场被拍,穿3万大衣又老又胖,经超却给足安全感

知鉴明史
2024-11-28 01:50:03
比亚迪,突发!

比亚迪,突发!

中国基金报
2024-11-27 14:06:30
官方警告!这些华人常用药紧急叫停!澳洲曾列为禁药:可致心脏病、猝死

官方警告!这些华人常用药紧急叫停!澳洲曾列为禁药:可致心脏病、猝死

澳洲红领巾
2024-11-27 11:59:25
真实的扬州屠城,数十万人死亡!颠覆你的认知!

真实的扬州屠城,数十万人死亡!颠覆你的认知!

极品小牛肉
2024-07-23 17:59:53
和谈仍在博弈 但俄军在乌东战场正以两年来最快速度推进!

和谈仍在博弈 但俄军在乌东战场正以两年来最快速度推进!

财联社
2024-11-27 17:10:30
新婚夜,我妻子要求我必须戴眼罩,因为她的身体只能给白月光看

新婚夜,我妻子要求我必须戴眼罩,因为她的身体只能给白月光看

喵呜好故事
2024-09-27 18:10:57
眼镜妹为何能成为人气之王?

眼镜妹为何能成为人气之王?

挪威森林
2024-10-14 16:48:00
摆烂的前兆?美记:森林狼正在兜售迪文琴佐,火箭大概率接手。

摆烂的前兆?美记:森林狼正在兜售迪文琴佐,火箭大概率接手。

鸡丁侃球
2024-11-29 05:48:02
笑死!马筱梅爆料汪小菲不为人知的一面,睡前要把所有西装试一遍

笑死!马筱梅爆料汪小菲不为人知的一面,睡前要把所有西装试一遍

鑫鑫说说
2024-11-28 14:29:55
《声生不息·大湾区季》首播,何炅一个表情,成为千万观众脸替

《声生不息·大湾区季》首播,何炅一个表情,成为千万观众脸替

马庆云的影音娱
2024-11-28 15:53:04
为何俄军久久不能收复库尔斯克?原因很简单:

为何俄军久久不能收复库尔斯克?原因很简单:

现代春秋
2024-11-27 21:54:08
拍写真,没有人能拍得过阿朵,各种奇葩造型你想都不敢想

拍写真,没有人能拍得过阿朵,各种奇葩造型你想都不敢想

南城无双
2024-11-28 00:24:46
梁光烈当总参谋长5年时间里,有6位中将助理,仅1人升副国级上将

梁光烈当总参谋长5年时间里,有6位中将助理,仅1人升副国级上将

史座y
2024-11-24 21:43:32
刘伯温预言2025年是“7龙治水,4牛耕田,9人分饼”,这是啥意思

刘伯温预言2025年是“7龙治水,4牛耕田,9人分饼”,这是啥意思

冰痕迹
2024-10-04 10:44:50
“我什么都不用做”,王境泽靠“真香梗”年入百万

“我什么都不用做”,王境泽靠“真香梗”年入百万

每日经济新闻
2024-11-28 00:19:14
热刺2-2罗马,孙兴慜利剑出鞘,迪巴拉发威,胡梅尔斯绝平救主

热刺2-2罗马,孙兴慜利剑出鞘,迪巴拉发威,胡梅尔斯绝平救主

侧身凌空斩
2024-11-29 06:06:26
2024-11-29 11:27:00
每日经济新闻
每日经济新闻
中国主流财经全媒体平台。
1097542文章数 2707229关注度
往期回顾 全部

科技要闻

车企付款周期特斯拉最短,造车新势力垫底

头条要闻

上海女子称遭中医侵犯:没注意到他脱裤子 来不及防备

头条要闻

上海女子称遭中医侵犯:没注意到他脱裤子 来不及防备

体育要闻

足协正筛选3月国足主场 优先考察杭州

娱乐要闻

内娱又有嫖娼瓜!年仅20岁还在做偶像

财经要闻

洪灏:不要误解增量政策 不是数越大越好

汽车要闻

ID. CODE概念车/探岳L领衔 大众汽车携25款车亮相

态度原创

艺术
健康
教育
时尚
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

花18万治疗阿尔茨海默病,值不值?

教育要闻

温州肯恩大学怎么样?厉害!教师当选英国皇家化学学会会士!

卫衣下面不要穿裤子!2024年流行这样穿,时髦显高超好看!

军事要闻

涉嫌严重违纪 中央军委委员苗华被停职检查

无障碍浏览 进入关怀版