网易首页 > 网易号 > 正文 申请入驻

Bengio精简了传统RNN,性能可与Transformer媲美

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

深度学习三巨头之一的Yoshua Bengio,刚刚发布了一篇有趣的新论文——

RNN就是所需的全部吗?
Were RNNs All We Needed?

不仅论文的名字有意思,其结论更是精彩。

研究表明,精简十几年前的RNN们,性能上可以与最近序列模型(如Transformer等)相媲美!

具体而言,Bengio等人重新审视了诸如LSTM(1997)和GRU(2014)这些传统的RNN,认为这些模型的缺点是由于需要时间反向传播 (BPTT) 而导致速度较慢。

所以他们直接大刀阔斧地移除了LSTM和GRU中的隐藏状态依赖,让它们不再需要BPTT,从而可以高效地并行训练。

而精简改良版的RNN们,名字分别叫做minLSTMminGRU

它们和传统RNN相比,不仅训练时所需的参数量大幅减少,并且完全可并行化。

嗯,是颇有一种大道至简的感觉了。

那么Bengio等人具体又是如何实现的?我们继续往下看。

精简版RNN

Transformer和它的变体们可以说是近几年大热的架构,但与此同时缺点也是较为明显,那便是在处理长序列时的计算复杂度问题。

具体来说,Transformer模型在序列长度上的计算复杂度是二次方的,这使得它在处理长序列时资源的消耗就比较高。

因此就需要能够在训练时有效地处理长序列,同时在推理时保持高效性能的替代方案——简化版的RNN。

这个过程的关键便是隐藏状态依赖,让它们不再需要BPTT,让效率直接飙升。

minGRU

首先我们来看下Bengio团队对GRU的处理,即minGRU,总共分为2步。

第一步,去除之前隐藏状态的依赖。

在传统的GRU模型中,更新门zt和候选隐藏状态h~t的计算依赖于前一时刻的隐藏状态 ht-1。这导致模型在训练时无法实现并行处理,因为每个时间步的计算都依赖于前一个时间步的结果。

为了解决这个问题,minGRU对GRU进行了修改,使更新门和候选隐藏状态的计算仅依赖于当前时刻的输入xt,而不依赖于ht-1:

通过这种方式,minGRU的每一时刻的计算可以独立于其他时刻并行执行。

第二步,去除候选状态的范围限制。

在第一步中,候选隐藏状态h~t仍然使用双曲正切函数(tanh)来限制其值的范围在 [−1,1][−1,1] 之间。虽然这有助于模型的稳定性,但它并不是并行化所必需的。

minGRU进一步简化模型,去除了对h~t的范围限制,将其替换为一个无需激活函数的线性变换:

这样,候选隐藏状态的计算变得更加简单,并且没有任何范围限制。

在这种结构下,minGRU不仅减少了模型参数,而且可以利用并行扫描算法在训练时实现并行化,从而显著提高了处理长序列的速度。

此外,minGRU的输出尺度在时间上是独立的,这有助于优化过程中的数值稳定性。整体变化如下:

minLSTM

接下来,我们再来看下Bengio团队对LSTM的处理,即minLSTM,共分为三步。

第一步,去除之前隐藏状态的依赖。

在传统的LSTM模型中,遗忘门ft、输入门it和候选细胞状态c~t的计算依赖于前一时刻的隐藏状态ht-1。

这导致模型在训练时无法实现并行处理,因为每个时间步的计算都依赖于前一个时间步的结果。

为了解决这个问题,minLSTM对LSTM进行了修改,使遗忘门、输入门和候选细胞状态的计算仅依赖于当前时刻的输入xt,而不依赖于ht-1:

通过这种方式,minLSTM的每一时刻的计算可以独立于其他时刻并行执行。

第二步,去除候选状态的范围限制。

在第一步中,候选细胞状态c~t仍然使用双曲正切函数(tanh)来限制其值的范围在 [−1,1][−1,1] 之间。虽然这有助于模型的稳定性,但它并不是并行化所必需的。

minLSTM进一步简化模型,去除了对c~t的范围限制,将其替换为一个无需激活函数的线性变换:

这样,候选细胞状态的计算变得更加简单,并且没有任何范围限制。

第三步,确保输出在时间上是独立的。

在许多序列建模设置中(例如文本生成),优化目标/输出在时间上是独立的。

为了确保LSTM的输出在时间上是独立的,minLSTM对遗忘门和输入门进行了归一化,确保它们的和为1,并且细胞状态的尺度在时间上是独立的:

通过这种方式,minLSTM确保了其输出在时间上是独立的,这有助于优化过程中的数值稳定性。

minLSTM的最终形式为:

Were RNNs All We Needed?

在精简了RNN们之后,Bengio团队也展示了实验结果。

例如下图显示了minGRU、minLSTM和Mamba模型在训练效率方面的比较,具体包括训练运行时间、加速比和内存占用。

这些指标是在T4 GPU上,以64的批次大小进行测量的:

以及在下图中,还展示了在Shakespeare语言建模任务中,不同模型的学习曲线。

这个任务使用字符级生成对抗训练,目的是评估模型在文本生成任务中的表现,简化RNN模型在处理语言建模任务时具有较好的有效性和高效率(特别是在需要快速训练和部署的应用场景中):

总而言之,Bengio团队认为,经过简化的RNN可能仍然是处理长序列任务的理想选择,尤其是在资源有限的场景下,因此也提出了问题 “Were RNNs All We Needed?”

华人一作

在这项研究中,作者除了Bengio之外,还有一点值得关注,那便是一作是一位华人,Leo Feng

从公开的个人网站来看,Leo Feng师从Bengio,目前是蒙特利尔大学的博士生,目前正在Borealis AI进行研究实习。

Leo Feng的研究范围包括元学习和高效模型的设计,其本科毕业于牛津大学。

那么你觉得精简版RNN这项研究如何?欢迎在评论区留言讨论。

论文地址:
https://arxiv.org/abs/2410.01201

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
告别,莱万携妻子漫步于空旷的诺坎普,随后独自坐在球场中央

告别,莱万携妻子漫步于空旷的诺坎普,随后独自坐在球场中央

懂球帝
2026-05-18 08:08:34
2-0!恭喜卫冕冠军!贺希宁已经彻底燃尽

2-0!恭喜卫冕冠军!贺希宁已经彻底燃尽

篮球实战宝典
2026-05-18 22:08:46
又被预言中了?中国房地产或将迎来新一轮暴涨?内行人说出实情

又被预言中了?中国房地产或将迎来新一轮暴涨?内行人说出实情

蜉蝣说
2026-05-18 18:32:02
全国科创大赛一等奖项目,被曝完整抄袭他人论文!

全国科创大赛一等奖项目,被曝完整抄袭他人论文!

双链生信
2026-05-18 22:56:11
19日凌晨法网出现大冷门,2-0,1-2,0-2,中国选手1胜2负

19日凌晨法网出现大冷门,2-0,1-2,0-2,中国选手1胜2负

等等talk
2026-05-19 03:00:38
知名女歌手仍未脱离危险,全力治疗中!

知名女歌手仍未脱离危险,全力治疗中!

最江阴
2026-05-18 19:09:26
Mac mini断货16周:AI代理把它变成了基础设施

Mac mini断货16周:AI代理把它变成了基础设施

全栈遛狗员
2026-05-18 04:18:20
曝古德温离开山西内幕:经纪人拒绝优先续约 上海赛季没结束就开谈

曝古德温离开山西内幕:经纪人拒绝优先续约 上海赛季没结束就开谈

狼叔评论
2026-05-18 20:34:13
向上社交的密码早已公开:贵人根本不在意你的诚意与努力,他们暗中筛选,只看你这两个核心属性

向上社交的密码早已公开:贵人根本不在意你的诚意与努力,他们暗中筛选,只看你这两个核心属性

心理观察局
2026-05-18 11:49:21
1.87亿欧的保证金?里克尔梅:我肯定凑齐了,不然也不会参选

1.87亿欧的保证金?里克尔梅:我肯定凑齐了,不然也不会参选

懂球帝
2026-05-19 04:02:27
混得好的人,都有5个共性:1、不跟同事走太近;2、不随意教人做事;3、不背后说人闲话;4、不过于在意别人的眼光…

混得好的人,都有5个共性:1、不跟同事走太近;2、不随意教人做事;3、不背后说人闲话;4、不过于在意别人的眼光…

二胡的岁月如歌
2026-05-18 19:22:43
学到了!小孩子一般什么时候开智,也许大家都没有想过这些

学到了!小孩子一般什么时候开智,也许大家都没有想过这些

另子维爱读史
2026-05-18 21:41:02
浪姐史上翻车最快的人出现了,网友:人不红果然是有原因的!

浪姐史上翻车最快的人出现了,网友:人不红果然是有原因的!

两只米老鼠
2026-04-14 03:27:12
雅马哈砸钱挖角张雪机车,为何反被对方引爆3.7亿订单潮?

雅马哈砸钱挖角张雪机车,为何反被对方引爆3.7亿订单潮?

生活魔术专家
2026-05-18 01:37:39
腾讯为什么推不出豆包

腾讯为什么推不出豆包

钛媒体APP
2026-05-18 22:08:40
洁丽雅风波致同行遭网暴,毛巾老板晒结婚证辟谣,账号改名“毛巾老板(无三原配版),网友:现在发现卖毛巾是体力活+演技活+公关活

洁丽雅风波致同行遭网暴,毛巾老板晒结婚证辟谣,账号改名“毛巾老板(无三原配版),网友:现在发现卖毛巾是体力活+演技活+公关活

大象新闻
2026-05-18 17:59:03
上海楼市开始离谱了!南京西路板块房价从18.2万变成12.8万

上海楼市开始离谱了!南京西路板块房价从18.2万变成12.8万

坠入二次元的海洋
2026-05-18 15:21:12
活106岁,熬死所有亲人:宋美龄看似风光百年,其实输得一无所有

活106岁,熬死所有亲人:宋美龄看似风光百年,其实输得一无所有

小莜读史
2026-05-18 13:53:12
港媒曝蔡卓妍含泪控诉丈夫!官宣结婚仅满20天,男方私生活惹争议

港媒曝蔡卓妍含泪控诉丈夫!官宣结婚仅满20天,男方私生活惹争议

天天热点见闻
2026-05-19 04:29:49
80%的公司裁员了,但是发现AI回报不如预期

80%的公司裁员了,但是发现AI回报不如预期

小星球探索
2026-05-18 17:39:55
2026-05-19 06:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
12650文章数 176464关注度
往期回顾 全部

科技要闻

苹果WWDC26定档6月9日凌晨:iOS27将亮相

头条要闻

赖清德要求美国继续向台出售武器 外交部表态

头条要闻

赖清德要求美国继续向台出售武器 外交部表态

体育要闻

58顺位的保罗,最强第三中锋

娱乐要闻

票房会破14亿!口碑第一电影出现了

财经要闻

中国芯片,怎么突然不便宜了?

汽车要闻

40.98万起!充电5分钟纯电续航420km 腾势N9闪充版胜算有多少?

态度原创

本地
旅游
数码
健康
公开课

本地新闻

用苏绣的方式,打开江西婺源

旅游要闻

红色文旅升级 沉浸式表达获年轻人点赞

数码要闻

联想拯救者自带线移动电源P5发售,169元

专家揭秘干细胞回输的安全风险

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版