网易首页 > 网易号 > 正文 申请入驻

不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞

0
分享至


新智元报道

编辑:alan

【新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅。

与Transformer相比,RNN模型的一大优势是应对长序列的能力。

比如Mamba,内部状态大小始终保持不变,计算随序列长度线性增长,吃得多,消化快。


理论虽如此,但实际情况却是,目前的这些RNN模型在长上下文中的有效性并不能令人满意。

为啥会这样?空有效率但实际上能力不行?

近日,来自清华的研究团队对此进行了深入的实验研究:


论文地址:https://arxiv.org/pdf/2410.07145v1

文章表明,Mamba这类RNN模型在长上下文中主要面临两个问题:

一是无法推断比训练长度更长的输入,原因是较短的训练数据导致了循环状态过拟合;

二是内存容量的上限,由于模型无法有效遗忘很久以前的信息,导致新的信息存不进来了。


——这俩问题明显不是RNN的锅。

而经过研究人员的对症下药,Mamba-2(370M)在256K上下文长度上达到了近乎完美的密钥检索精度。


所以结论就是,Mamba yes!「RNN神教」前景一片光明!

对此,Mamba的作者Albert Gu点赞转发,并发表了相当详细的见解:


「这是一篇很棒的论文(名字也很棒)—— 关于状态空间模型(SSM)的状态容量和长上下文能力的巧妙实验。」

令人惊讶的是,对于每个状态大小 M,当训练上下文长度达到或超过某个临界值 K 时,都会出现一个转折点,在这个点上 SSM 就能够稳健地实现长度泛化。 这是因为当上下文长度小于 K 时,循环状态没有被充分利用,导致模型在训练期间会「过拟合」。但一旦通过足够长序列的训练使模型的状态容量得到充分利用,它就会自动获得泛化能力。 值得注意的是,K 与 M 竟然呈线性关系!—— 这表明每个 token 可能存在某种固有的信息含量(即存在一个值 B,使得上下文中的每个 token 对应 B 字节的循环状态)。这个 B 值可能是由模型架构决定的?

「反过来说,过分担心循环模型的长度泛化问题可能是一个误区。我们无需设计新机制或特殊的缓解措施:只需要在更长的序列上训练(因为是线性时间复杂度,所以不会增加计算开销!),就能获得更好的泛化效果。」

最后,Albert Gu用一句话总结:要让你的Mamba吃得饱饱的,它就能发挥出最佳状态!

喂饱你的Mamba

先来复习一下基础知识。

本文以Mamba2作为主要研究对象,内部的计算表示为下图中的并行结构:


整体的输入输出遵循SSM(也即RNN)的形式:


而把上图中模块内部所有的计算写出来,就是下面这一坨公式:


之前提到的两个问题,核心在于模型的内部状态,也就是ht的表现。

所以下面在探索问题和解决方案时,咱们可以重点关注这些公式中,与ht计算相关的参数。

之前有研究表明,当上下文长度超过其训练长度时,Mamba-1和RWKV-4的性能会严重下降。

顺着这个思路,研究人员在两个方向上进行了实验分析:状态崩溃(STATE COLLAPSE)和容量上限(STATE CAPACITY)。

状态崩溃

状态崩溃(SC)指的是,RNN模型在输入上表现出异常行为的时间比训练期间看到的时间更长的现象。


上图展示了Mamba-2和RWKV-6在训练长度之外的语言建模损失。为了可控性和合成任意长度的提示,这个损失是在仅由「\n」字符组成的提示上计算的(称为「newlines」提示)。

结果表明,当上下文长度远大于其训练长度时,两个RNN的性能都会严重下降,最后就跟瞎猜差不多了。


语言建模可能无法反映下游能力,上图给出了Mamba-2(在8K上下文窗口上训练)在密钥检索任务上的评估结果。

我们可以发现,Mamba-2在8K上下文中具有近乎完美的检索准确性,但在序列长度超过16K后就没法看了,无论模型参数量大小。

从上面的公式来看,这种结果可能出人意料,因为内部状态ht的更新应该具有稳定的指数内存衰减,即对于最后k个token具有良好的检索准确性。

问题出在哪里?

由于递归状态的维度不会随时间而变化,因此状态崩溃期间行为的急剧变化一定是状态值变化的结果。

作者对Mamba-2 370M中每一层的递归状态进行了统计,发现当上下文长度超过训练长度时,一些头部的平均值和方差会急剧变化:


图5显示了模型第38层第2个头的状态,在t=20K时方差爆炸。从中可以发现这种方差爆炸在很大程度上可以归因于少数异常通道,其余大多数通道则相对稳定。

分析一下公式,与ht计算有关的∆t、Bt和xt:


如上图所示,虽然三者都是输入的函数,但xt相对稳定,而Bt比∆t更早发生爆炸,进一步探索还能发现生成∆t和Bt的卷积权重明显更大。

作者认为,产生SC的原因是,对于训练长度来说,状态容量过大,模型能够实现强大的语言建模性能,而无需学习如何忘记。


上图显示了第一个token在不同时间步的内存强度,作者发现爆炸的头(第38层的第2、4、7个头)强烈倾向于在训练长度内保留所有信息,在t=8K时内存强度超过0.8。

解决方案

为了缓解SC,使模型沿序列长度更好地泛化,作者提出了3种解决方案,总的思想是修改状态的update规则来避免其溢出。

Method 1: Forget More and Remember Less

通过增加状态衰减量(忘记更多)或减少输入信息的数量(记住更少)来减少SC,作者选择干预Bt和αt(分别控制输入强度和内存衰减强度)。

Method 2: State Normalization

在每次更新后对状态进行归一化,以确保状态的范数始终低于阈值:


PS:这种方式会将模型转换为非线性RNN,无法以与原始模型相同的方式并行化,预填充速度要慢得多。

Method 3: Sliding Window by State Difference

利用状态ht可以写为加权和的形式,来模拟滑动窗口机制,无需在每一步都从窗口的开头重新处理。

此方法适用于所有可以写成加权和的RNN,包括RWKV 5和6、RetNet、GLA等。尽管会使生成的计算和内存成本翻倍,但仍然是一个可以接受的权衡,因为RNN的生成成本比Transformer低很多。

以上3个是不需要训练的方案,而基于SC是由状态参数过拟合引起的假设,我们也可以尝试使用超过状态容量的序列长度来训练模型。

容量上限

根据以上的讨论,当且仅当训练长度包含的信息少于状态容量时,才会发生SC,所以我们可以通过实验间接估计模型的状态容量。

研究人员训练了多个具有不同状态大小和训练长度的Mamba-2,并将SC未发生的最小训练长度视为状态容量。

实验数据选择RedPajama-V2,一个从CommonCrawl中提取的30T token的开放数据集,进行去重以确保数据质量。

在评估过程中,对长度超过16K token的文档进行抽样,如果不够长,则对其进行拼接。

研究人员试验了具有不同状态大小的模型配置,包括来自Mamba-2官方checkpoint的三个预训练模型,大小分别为130M、370M和780M,另外3个模型(36M、47M、85M)则从头开始训练。


实验结果


上图展示了在Mamba-2 780M上无训练长度泛化方法的结果。我们可以看到,虽然LongMamba大大提高了模型的长度泛化性(3倍以上),但它在较短的序列上会导致明显更大的困惑度,并且仍然不可避免地表现出SC。

相比之下,本文的所有的方法都成功地抑制了SC,使模型能够泛化到超过64K个token。

三种方案中,状态归一化在较短序列上的性能大大低于其他方法,这可能是因为归一化折叠状态会改变heads之间的规范比率,破坏了学习机制。


上图显示了Mamba-2在语言建模和密钥检索方面的状态容量。两个图中最右边的数据点对应于Mamba-2 370M。

左边的图可以拟合出一个线性关系,而右边的图则表明Mamba-2在密钥检索方面的容量与状态大小呈指数级关系。

这是因为上下文中的信息量不会随着其长度的增加而增加。换句话说,模型存储了恒定数量的信息,而状态的组合数量随着元素数量呈指数增长。

参考资料:

https://arxiv.org/abs/2410.07145v1

https://x.com/_albertgu/status/1852011550711632289

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
瓜哥:KG确实惹了我 但他没说甜甜圈 他说“我闻到了pu**y”

瓜哥:KG确实惹了我 但他没说甜甜圈 他说“我闻到了pu**y”

直播吧
2024-11-30 15:07:03
罗翔:小时候不理解老人晒太阳,一坐就是半天,长大了才明白

罗翔:小时候不理解老人晒太阳,一坐就是半天,长大了才明白

清风拂心
2024-10-16 17:11:19
伊朗将军战死!俄军苏34战机突然轰炸中东,要救叙利亚

伊朗将军战死!俄军苏34战机突然轰炸中东,要救叙利亚

大风文字
2024-11-29 19:43:50
香奈儿官宣:西湖!今天杭州人都在转同一条视频:太优雅,太时尚

香奈儿官宣:西湖!今天杭州人都在转同一条视频:太优雅,太时尚

都市快报橙柿互动
2024-11-30 15:19:47
郭德纲再被曝惊人猛料!杨议直指王梦婷事件,真相让人震惊!

郭德纲再被曝惊人猛料!杨议直指王梦婷事件,真相让人震惊!

小毅说事
2024-11-30 00:05:08
杨红员等同志拟任职务公示

杨红员等同志拟任职务公示

掌上春城
2024-11-30 15:29:26
王楚钦福冈夺冠后,刘国梁给予了三点总结与点评,真挚而诚恳!

王楚钦福冈夺冠后,刘国梁给予了三点总结与点评,真挚而诚恳!

田先生篮球
2024-11-29 10:50:59
中疾控发布马尔堡病毒病健康提示

中疾控发布马尔堡病毒病健康提示

大众日报
2024-11-30 13:01:18
白人女性是不是很美?直到看完网友们的分享,才发现亚洲美女无敌

白人女性是不是很美?直到看完网友们的分享,才发现亚洲美女无敌

圈里的甜橙子
2024-11-30 13:13:15
22岁女生横死南京高校,依靠体内DNA,28年后破案,凶手出人意料

22岁女生横死南京高校,依靠体内DNA,28年后破案,凶手出人意料

历来都很现实
2024-06-13 22:58:34
1992年,陈百强紧急抢救时,留下的镜头,全身插满管子,次年离世

1992年,陈百强紧急抢救时,留下的镜头,全身插满管子,次年离世

李律讲法
2024-11-17 22:35:02
太惨!北京一男子因吃“驴打滚”窒息身亡后续:新婚夫妻

太惨!北京一男子因吃“驴打滚”窒息身亡后续:新婚夫妻

小人物看尽人间百态
2024-11-30 18:25:44
超三万人施工,仅12天建成的雷神山医院,停用4年后荒废了吗?

超三万人施工,仅12天建成的雷神山医院,停用4年后荒废了吗?

历史有些冷
2024-07-04 20:00:02
蔚山主帅:无缘韩国杯冠军对不起球迷,接下来全力准备和申花的比赛

蔚山主帅:无缘韩国杯冠军对不起球迷,接下来全力准备和申花的比赛

雷速体育
2024-11-30 17:56:32
马龙参观台北故宫!一身黑色休闲装太帅了,对镜头挥手腕表也抢镜

马龙参观台北故宫!一身黑色休闲装太帅了,对镜头挥手腕表也抢镜

八八尚语
2024-11-30 12:36:39
就别吹恐怖组织了,主流文明的代表有100种方法碾压他们

就别吹恐怖组织了,主流文明的代表有100种方法碾压他们

大风文字
2024-11-29 06:49:17
梁光烈当总参谋长5年时间里,有6位中将助理,仅1人升副国级上将

梁光烈当总参谋长5年时间里,有6位中将助理,仅1人升副国级上将

史座y
2024-11-24 21:43:32
青龙奖这一夜,韩国娱乐圈咖位高低,在45岁汤唯身上体现淋漓尽致

青龙奖这一夜,韩国娱乐圈咖位高低,在45岁汤唯身上体现淋漓尽致

圈里的甜橙子
2024-11-30 14:37:56
不是迷信!明日冬月第一天,最忌讳做这“5事”,请务必告诉家人

不是迷信!明日冬月第一天,最忌讳做这“5事”,请务必告诉家人

古装影视解说阿凶
2024-11-30 16:37:12
吴柳芳第二?前美女击剑国手转型当主播 拍擦边视频称为生活

吴柳芳第二?前美女击剑国手转型当主播 拍擦边视频称为生活

厝边人侃体育
2024-11-30 10:10:09
2024-11-30 19:15:00
新智元
新智元
AI产业主平台领航智能+时代
11802文章数 65710关注度
往期回顾 全部

科技要闻

官宣!华为+广汽,联手造车!

头条要闻

泽连斯基提"结束热战"方案 与多国领导人讨论"入约"

头条要闻

泽连斯基提"结束热战"方案 与多国领导人讨论"入约"

体育要闻

历史第一!詹姆斯再创里程碑宝刀不老

娱乐要闻

恶意炒作!李行亮麦琳和好后口碑崩塌

财经要闻

雪松爆雷前实控人张劲在香港抛售房产

汽车要闻

比亚迪方程豹豹8推送首次OTA 新增暴力模式

态度原创

手机
房产
旅游
数码
本地

手机要闻

荣耀 90GT 手机开启 MagicOS 9.0 内测更新,新增 AI 消除等

房产要闻

大量甩地!114亿,4790亩!海南土地市场全面爆发!

旅游要闻

驻意大利使馆提醒旅意中国公民注意风险防范

数码要闻

苹果在美国提升 iPad 机型设备折抵换购价值,至高可多获 35 美元

本地新闻

云游中国|来伦布夏果感受充满Passion的人生

无障碍浏览 进入关怀版