网易首页 > 网易号 > 正文 申请入驻

Bengio精简了传统RNN,性能可与Transformer媲美

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

深度学习三巨头之一的Yoshua Bengio,刚刚发布了一篇有趣的新论文——

RNN就是所需的全部吗?
Were RNNs All We Needed?



不仅论文的名字有意思,其结论更是精彩。

研究表明,精简十几年前的RNN们,性能上可以与最近序列模型(如Transformer等)相媲美!



具体而言,Bengio等人重新审视了诸如LSTM(1997)和GRU(2014)这些传统的RNN,认为这些模型的缺点是由于需要时间反向传播 (BPTT) 而导致速度较慢。

所以他们直接大刀阔斧地移除了LSTM和GRU中的隐藏状态依赖,让它们不再需要BPTT,从而可以高效地并行训练。

而精简改良版的RNN们,名字分别叫做minLSTMminGRU

它们和传统RNN相比,不仅训练时所需的参数量大幅减少,并且完全可并行化。

嗯,是颇有一种大道至简的感觉了。

那么Bengio等人具体又是如何实现的?我们继续往下看。



精简版RNN

Transformer和它的变体们可以说是近几年大热的架构,但与此同时缺点也是较为明显,那便是在处理长序列时的计算复杂度问题。

具体来说,Transformer模型在序列长度上的计算复杂度是二次方的,这使得它在处理长序列时资源的消耗就比较高。

因此就需要能够在训练时有效地处理长序列,同时在推理时保持高效性能的替代方案——简化版的RNN。

这个过程的关键便是隐藏状态依赖,让它们不再需要BPTT,让效率直接飙升。

minGRU

首先我们来看下Bengio团队对GRU的处理,即minGRU,总共分为2步。

第一步,去除之前隐藏状态的依赖。

在传统的GRU模型中,更新门zt和候选隐藏状态h~t的计算依赖于前一时刻的隐藏状态 ht-1。这导致模型在训练时无法实现并行处理,因为每个时间步的计算都依赖于前一个时间步的结果。

为了解决这个问题,minGRU对GRU进行了修改,使更新门和候选隐藏状态的计算仅依赖于当前时刻的输入xt,而不依赖于ht-1:



通过这种方式,minGRU的每一时刻的计算可以独立于其他时刻并行执行。

第二步,去除候选状态的范围限制。

在第一步中,候选隐藏状态h~t仍然使用双曲正切函数(tanh)来限制其值的范围在 [−1,1][−1,1] 之间。虽然这有助于模型的稳定性,但它并不是并行化所必需的。

minGRU进一步简化模型,去除了对h~t的范围限制,将其替换为一个无需激活函数的线性变换:



这样,候选隐藏状态的计算变得更加简单,并且没有任何范围限制。

在这种结构下,minGRU不仅减少了模型参数,而且可以利用并行扫描算法在训练时实现并行化,从而显著提高了处理长序列的速度。

此外,minGRU的输出尺度在时间上是独立的,这有助于优化过程中的数值稳定性。整体变化如下:



minLSTM

接下来,我们再来看下Bengio团队对LSTM的处理,即minLSTM,共分为三步。

第一步,去除之前隐藏状态的依赖。

在传统的LSTM模型中,遗忘门ft、输入门it和候选细胞状态c~t的计算依赖于前一时刻的隐藏状态ht-1。

这导致模型在训练时无法实现并行处理,因为每个时间步的计算都依赖于前一个时间步的结果。

为了解决这个问题,minLSTM对LSTM进行了修改,使遗忘门、输入门和候选细胞状态的计算仅依赖于当前时刻的输入xt,而不依赖于ht-1:



通过这种方式,minLSTM的每一时刻的计算可以独立于其他时刻并行执行。

第二步,去除候选状态的范围限制。

在第一步中,候选细胞状态c~t仍然使用双曲正切函数(tanh)来限制其值的范围在 [−1,1][−1,1] 之间。虽然这有助于模型的稳定性,但它并不是并行化所必需的。

minLSTM进一步简化模型,去除了对c~t的范围限制,将其替换为一个无需激活函数的线性变换:



这样,候选细胞状态的计算变得更加简单,并且没有任何范围限制。

第三步,确保输出在时间上是独立的。

在许多序列建模设置中(例如文本生成),优化目标/输出在时间上是独立的。

为了确保LSTM的输出在时间上是独立的,minLSTM对遗忘门和输入门进行了归一化,确保它们的和为1,并且细胞状态的尺度在时间上是独立的:



通过这种方式,minLSTM确保了其输出在时间上是独立的,这有助于优化过程中的数值稳定性。

minLSTM的最终形式为:



Were RNNs All We Needed?

在精简了RNN们之后,Bengio团队也展示了实验结果。

例如下图显示了minGRU、minLSTM和Mamba模型在训练效率方面的比较,具体包括训练运行时间、加速比和内存占用。

这些指标是在T4 GPU上,以64的批次大小进行测量的:



以及在下图中,还展示了在Shakespeare语言建模任务中,不同模型的学习曲线。

这个任务使用字符级生成对抗训练,目的是评估模型在文本生成任务中的表现,简化RNN模型在处理语言建模任务时具有较好的有效性和高效率(特别是在需要快速训练和部署的应用场景中):



总而言之,Bengio团队认为,经过简化的RNN可能仍然是处理长序列任务的理想选择,尤其是在资源有限的场景下,因此也提出了问题 “Were RNNs All We Needed?”

华人一作

在这项研究中,作者除了Bengio之外,还有一点值得关注,那便是一作是一位华人,Leo Feng



从公开的个人网站来看,Leo Feng师从Bengio,目前是蒙特利尔大学的博士生,目前正在Borealis AI进行研究实习。

Leo Feng的研究范围包括元学习和高效模型的设计,其本科毕业于牛津大学。

那么你觉得精简版RNN这项研究如何?欢迎在评论区留言讨论。

论文地址:
https://arxiv.org/abs/2410.01201

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小米宣布Note 14 Pro+刷新今年首销记录 安卓销量冠军!

小米宣布Note 14 Pro+刷新今年首销记录 安卓销量冠军!

手机中国
2024-10-04 16:44:04
以色列政府开会讨论如何应对伊朗导弹袭击

以色列政府开会讨论如何应对伊朗导弹袭击

国际在线
2024-10-04 07:26:07
毛姆:永远不要跟别人说真心话,不要让人知道你渴望什么

毛姆:永远不要跟别人说真心话,不要让人知道你渴望什么

清风拂心
2024-09-28 14:26:14
给加拿大的台阶已经收走!中方宣布举措:新账旧账一起算!

给加拿大的台阶已经收走!中方宣布举措:新账旧账一起算!

史小纪
2024-10-03 11:23:36
精神分裂脑中的世界到底多可怕?看了网友分享,鬼都是小儿科了!

精神分裂脑中的世界到底多可怕?看了网友分享,鬼都是小儿科了!

今日养生之道
2024-10-04 14:24:44
惊艳!韩国正妹「연유 Yeonyu」性感照曝光,挑逗姿态让人心动!

惊艳!韩国正妹「연유 Yeonyu」性感照曝光,挑逗姿态让人心动!

大为看点丶
2024-10-03 16:30:03
上海富豪高调寻子,发现19岁儿子聋哑拒相认,养父:我养不了了!

上海富豪高调寻子,发现19岁儿子聋哑拒相认,养父:我养不了了!

小啾咪侃侃史
2024-10-04 17:25:02
你见过最主动的女生是什么样的?网友们也太会了!

你见过最主动的女生是什么样的?网友们也太会了!

滑稽斑马呀
2024-06-18 18:38:21
普京是背后金主,也进入倒计时了!以军炸毁中东最大俄军基地

普京是背后金主,也进入倒计时了!以军炸毁中东最大俄军基地

大风文字
2024-10-04 19:07:56
紫金矿业:获摩根大通增持约2.22亿港元H股

紫金矿业:获摩根大通增持约2.22亿港元H股

每日经济新闻
2024-10-04 20:10:07
唯一在世的中共一代领导人,如今107岁了。

唯一在世的中共一代领导人,如今107岁了。

华人星光
2024-06-24 17:05:57
伊朗导弹击毁以色列20架F-35?以色列一共才27架,这是被团灭了?

伊朗导弹击毁以色列20架F-35?以色列一共才27架,这是被团灭了?

文雅笔墨
2024-10-04 17:25:56
冷空气致广东多地气温创下半年新低

冷空气致广东多地气温创下半年新低

中工网
2024-10-04 15:42:02
女子出轨邻居被捉,遭邻居妻子谩骂,女子丈夫的表现出乎人们预料

女子出轨邻居被捉,遭邻居妻子谩骂,女子丈夫的表现出乎人们预料

胡侃社会百态
2024-10-04 08:58:36
突然爆火!南京已有人出动

突然爆火!南京已有人出动

爱下厨的阿酾
2024-10-04 19:17:04
太阳耀斑爆发,未来三天可能发生强地磁活动

太阳耀斑爆发,未来三天可能发生强地磁活动

新京报
2024-10-04 18:11:12
赢球也被骂!王楚钦梁靖崑晋级决赛,人民日报发贺电都忙不过来了

赢球也被骂!王楚钦梁靖崑晋级决赛,人民日报发贺电都忙不过来了

叁炮体育
2024-10-04 13:21:32
笋壳鱼?广东一废弃鱼塘惊现大量凶猛怪鱼,老乡:我们都不敢吃

笋壳鱼?广东一废弃鱼塘惊现大量凶猛怪鱼,老乡:我们都不敢吃

小胡渔记
2024-10-04 12:55:02
绝对是看走眼了!广东队后场新外援的得分能力实在是太糟糕了?

绝对是看走眼了!广东队后场新外援的得分能力实在是太糟糕了?

稻谷与小麦
2024-10-04 22:54:23
怎一个惨字了得!8月全球车企销量排行,前二十国产居然只有两个

怎一个惨字了得!8月全球车企销量排行,前二十国产居然只有两个

沙雕小琳琳
2024-10-02 20:46:15
2024-10-04 23:20:49
量子位
量子位
追踪人工智能动态
9952文章数 175536关注度
往期回顾 全部

科技要闻

特斯拉四款新版4680电池计划2026年推出

头条要闻

欧盟5国反对对中国电动汽车加征关税 德国警告欧盟

头条要闻

欧盟5国反对对中国电动汽车加征关税 德国警告欧盟

体育要闻

郑钦文逆转安德列娃 首进中网女单四强

娱乐要闻

辛雨锡赌上名节讨公道,秦霄贤隐身

财经要闻

欧盟向中国电动车征反补贴税提议获通过

汽车要闻

预售7.88万元起 吉利星愿将于10月9日正式上市

态度原创

本地
房产
数码
教育
手机

本地新闻

云游中国|还有谁不知道 荆门人有属于自己的仙本那

房产要闻

国庆到啦!快来查收你的买楼大礼包

数码要闻

Intel 128核至强6980P处理器创下17800美元的旗舰价格纪录

教育要闻

院士初中抢交卷,只考18分,老师没有惩罚,逆袭背后还有原因?

手机要闻

三星Galaxy S25 Ultra外观再确认:取消外部金属边框、手感更好

无障碍浏览 进入关怀版