网易首页 > 网易号 > 正文 申请入驻

RNN回归!Bengio新作大道至简与Transformer

0
分享至



[tian.qqcn2010.com)

新智元报道:alan【新智元导读】近日,深度学习三巨头之一的Yoshua Bengio,带领团队推出了全新的RNN架构,以大道至简的思想与Transformer一较高下。

在Transformer统治的AI时代之下,散落在世界各地的「RNN神教」信徒,一直相信并期待着RNN回归的那天:



[pan.xnxxsa.com)

毕竟,凭借强大的顺序和上下文感知能力,RNN曾在各种任务中表现惊艳。直到后来遭遇了反向训练的瓶颈,因Scaling Law而跌落神坛。然而,人们并没有忘记RNN。



[pan.kra-architects.com)

RWKV、Mamba、xLSTM等RNN衍生模型接连出现,欲挑战Transformer之霸主地位。

就在近日,又有重量级人物下场——深度学习三巨头之一的Yoshua Bengio,带领团队推出了全新的RNN架构,以大道至简的思想与Transformer一较高下。



[wei.allpcpc.com)

论文地址:https://arxiv.org/pdf/2410.01201v1

研究人员对传统的两种RNN架构LSTM和GRU,进行了大刀阔斧的改造,从中诞生了两个新模型:minLSTM和minGRU。

这俩极简主义的版本到底怎么样?咱们先看疗效。首先是RNN最大的问题:训练速度。



[bu.wdp1.com)

上图展示了几种模型在T4 GPU上训练花费的时间,以及新模型带来的加速比。横轴为输入数据的序列长度,批量大小为64。

可以看到,相比于原版的LSTM和GRU,minLSTM、minGRU和Mamba的运行时间不会随序列长度而增加(后3个模型的线在左图中重叠了)。

当序列长度为4096时,新架构相对于传统版本达到了1300多倍的加速比!

相当于原版GRU需要3年才能做完的事情,minGRU一天就搞定了。

那么对线Transformer的战绩如何?



[xia.g3id.com)

在本文测试的语言建模任务中,minGRU和minLSTM分别在600步左右达到最佳性能点。

相比之下,Transformer需要比minGRU多花大概2000步,训练速度慢了约2.5倍。对此,YC上的网友表示:「我非常喜欢这个新架构的简单性」。



[bu.crninfo.com)

毕竟,俗话说的好,「最好的PR是那些删除代码的PR」。

模型架构下面来感受一下极简模型的诞生过程。

首先,这是传统的RNN架构:



[tian.qt4t.com)

LSTM在RNN的每个cell中加入了比较复杂的门控:



[wu.joypox.com)

三个门控(input gate、output gate、forget gate)和输入的分量,都通过线性投影和非线性激活函数来得出,并且依赖于上一个时刻的隐藏状态ht-1。



[wu.donsta.net)

这些值再经过线性和非线性计算,得到本时刻的输出ct和隐藏状态ht。

GRU在LSTM的基础上做了一些简化:



[zong.nbkradio.com)

少了显式计算ct,用于门控的项也缩减到2个,相应的参数量和计算量也减少了。



[bu.shenyanglzx.com)

那么我们就从相对简单的GRU入手,开始改造。

改造的目的是使RNN能够应用并行扫描(Parallel Scan)算法,解决自身训练困难的问题。简单来说,就是将网络中的计算改造成vt = at ⊙ vt−1 + bt的形式。

minGRU第一步,公式中含有对之前隐藏状态ht-1的依赖,没办法用并行扫描,所以把ht-1直接删掉。



[kuai.ee-6.com)

ht-1没了,负责调控ht-1的rt也没用了,删掉。

第二步,双曲正切函数(tanh)负责限制隐藏状态的范围,并减轻因sigmoid(σ)而导致的梯度消失。但是现在ht-1和rt都没了,tanh也失去了存在的意义,删掉。

那么最终,minGRU就是下面这三个公式:



[bu.mori365.net)

相比于原版,参数量和计算量再次减少,最重要的是能够使用并行扫描来显著加快训练速度。

minLSTM经过上面的叙述,minLSTM的由来就很好理解了。

首先还是去除隐藏状态的依赖:



[kuai.mraza.net)

接着是拿掉相关的tanh:



[xia.105db.com)

最后,为了保证LS[low.share.carazoe.com)TM输出的尺度与时间无关,以及hidden state在缩放上与时[fat.share.c-lajoa.com)间无关,还需要删掉output gate。

output gat[fat.share.dilkampi.com)e没了,ct也就没必要单独存在了,删掉;剩下的两个门控通过归一化来调配[our.share.yfwmx.com)hidden state进入的比例。



[gong.hinist.co[did.share.539918.com)m)

——emmm......好像变成GRU了,算了不管了。最终改[for.share.wytepad.com)造好的minLSTM是下面这个样子:



[xia.petqs.c[has.share.wcjianhua.com)om)

Were RNNs All We Needed?

全新[our.share.winerplus.com)的RNN搞出来了,能打Transformer吗?

别急,先打内战证[our.share.sjzbxsj.com)明价值。

除了传统的RNN(LSTM和GRU),这里特别关注与Mamb[fact.share.rma7.com)a的比较。

首先是训练上的提升:



[zong.fizura.[fat.share.austin-inc.com)com)

实验在批次大小64的情况下改变序列长度,测量了模型执行前向[of.share.quguwan.com)传递、计算损失和向后传递计算梯度的总运行时间[did.share.yangguangshequwang.com)以及内存占用。

在运行时间方面,minLSTM、minGRU与Mam[fact.share.bdxhk.com)ba实现了类似的效率。

序列长度为512时的运行时间(超过100次的平均[our.share.ex3k.com)值),分别为 2.97、2.72和2.71毫秒;序列长度为40[fact.share.medulina.com)96时,运行时间分别为3.41、3.25和3.15。

相比之下,LST[our.share.dhkkj.com)M和GRU的运行时间随序列长度线性增加。所以序列长度为512时,m[fat.share.it-prom.com)inGRU和minLSTM的训练加速了175倍和235倍;序列长度为4096时,加速比达到了1324和1361。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你每天都洗屁股吗,到底要不要经常洗肛门?这不是所谓的冷知识!

你每天都洗屁股吗,到底要不要经常洗肛门?这不是所谓的冷知识!

爆炸营养彭鑫蕊
2024-11-27 16:20:36
卡米拉王后发生重大变故!查尔斯正在为此做各种准备,无怨无悔

卡米拉王后发生重大变故!查尔斯正在为此做各种准备,无怨无悔

小寒嫣语
2024-11-28 18:30:09
26岁女子相亲长得不忍直视,要18万彩礼,小伙:8千也不值=

26岁女子相亲长得不忍直视,要18万彩礼,小伙:8千也不值=

农村情感故事
2024-11-28 18:47:04
李子柒生图曝光!离开美颜脸肿鼻大,一身蜀锦被穿香奈儿记者抢镜

李子柒生图曝光!离开美颜脸肿鼻大,一身蜀锦被穿香奈儿记者抢镜

观察鉴娱
2024-11-28 12:21:00
NBA杯湖人战雷霆 浓眉与克内克特大概率出战 海斯小概率出战

NBA杯湖人战雷霆 浓眉与克内克特大概率出战 海斯小概率出战

直播吧
2024-11-29 09:19:32
仅差5记3分!历史第二神迹将达成!都说他不行了,如今却王者归来

仅差5记3分!历史第二神迹将达成!都说他不行了,如今却王者归来

鬼魅突破上篮
2024-11-28 20:00:18
穆帅争冠对手铩羽而归:1-3爆大冷,无缘欧联3连胜,失点酿苦果

穆帅争冠对手铩羽而归:1-3爆大冷,无缘欧联3连胜,失点酿苦果

侧身凌空斩
2024-11-29 03:56:30
有导游称老年游客出站坐大巴不便,南都实探广州南站

有导游称老年游客出站坐大巴不便,南都实探广州南站

南方都市报
2024-11-28 01:19:15
降息50个基点!最新宣布

降息50个基点!最新宣布

鲁中晨报
2024-11-28 09:44:07
陕西夫妇拒绝“过度装修”,把161㎡家装得堪称教科书,太高级了

陕西夫妇拒绝“过度装修”,把161㎡家装得堪称教科书,太高级了

简约装修设计美图
2024-11-25 10:33:27
“羊肉五不吃,吃了冬难安”,喜欢吃羊肉的要注意了,别不当回事

“羊肉五不吃,吃了冬难安”,喜欢吃羊肉的要注意了,别不当回事

阿龙美食记
2024-11-27 21:20:13
3万人围观!巴萨6-4皇马:44岁小罗无解世界波,菲戈破门

3万人围观!巴萨6-4皇马:44岁小罗无解世界波,菲戈破门

叶青足球世界
2024-11-29 09:22:48
上海一学校食堂出现腐败变质食物?校方:已更换供应商,后续招标家长共同参与;奉贤区教育局:多部门已介入,正在调查

上海一学校食堂出现腐败变质食物?校方:已更换供应商,后续招标家长共同参与;奉贤区教育局:多部门已介入,正在调查

东方网
2024-11-28 15:54:06
梁光烈当总参谋长5年时间里,有6位中将助理,仅1人升副国级上将

梁光烈当总参谋长5年时间里,有6位中将助理,仅1人升副国级上将

史座y
2024-11-24 21:43:32
终于理解"三代之内有案底不能考公"的规定了!这案例真一针见血啊~

终于理解"三代之内有案底不能考公"的规定了!这案例真一针见血啊~

热闹的河马
2024-11-25 13:54:12
形势到底有多严峻?天呢!上海已经刷新国人的认知…

形势到底有多严峻?天呢!上海已经刷新国人的认知…

慧翔百科
2024-11-21 12:03:47
唐嫣颜值暴跌人气低!开直播仅200人在线,被嘲整容恢复期还营业

唐嫣颜值暴跌人气低!开直播仅200人在线,被嘲整容恢复期还营业

扒星人
2024-11-27 21:25:32
王曦辞去广东省副省长职务

王曦辞去广东省副省长职务

新快报新闻
2024-11-28 16:46:02
欧协联冷门夜!1-2大冷门,3分钟丢2球酿苦果,西甲劲旅惨遭逆转

欧协联冷门夜!1-2大冷门,3分钟丢2球酿苦果,西甲劲旅惨遭逆转

凌空倒钩
2024-11-29 06:22:34
清算加速!恒大理财启动高管工资退缴,丁玉梅曾提前兑付2300万

清算加速!恒大理财启动高管工资退缴,丁玉梅曾提前兑付2300万

财话连篇
2024-11-28 18:28:33
2024-11-29 11:40:49

科技要闻

车企付款周期特斯拉最短,造车新势力垫底

头条要闻

欧洲央行行长建议欧洲"花钱消灾":主动多买美国货

头条要闻

欧洲央行行长建议欧洲"花钱消灾":主动多买美国货

体育要闻

足协正筛选3月国足主场 优先考察杭州

娱乐要闻

内娱又有嫖娼瓜!年仅20岁还在做偶像

财经要闻

洪灏:不要误解增量政策 不是数越大越好

汽车要闻

ID. CODE概念车/探岳L领衔 大众汽车携25款车亮相

态度原创

时尚
艺术
游戏
旅游
亲子

卫衣下面不要穿裤子!2024年流行这样穿,时髦显高超好看!

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

索尼称PS Vita掌机是掌上游戏设备的“革命性飞跃”

旅游要闻

张家口一滑雪场缆车故障致游客被困一小时

亲子要闻

让孩子远离手机:一个收纳箱,里面藏了30辆合金小汽车

无障碍浏览 进入关怀版