网易首页 > 网易号 > 正文 申请入驻

谷歌提出创新神经记忆架构,突破Transformer长上下文限制

0
分享至

让 AI 模型拥有人类的记忆能力一直是学界关注的重要课题。传统的深度学习模型虽然在许多任务上取得了显著成效,但在处理需要长期记忆的任务时往往力不从心。就像人类可以轻松记住数天前看过的文章重点,但目前的 AI 模型在处理长文本时却经常丢三落四,这种差距一直是困扰研究人员的关键问题。

近日,谷歌研究院的研究团队在这一领域取得了重要突破,Ali Behrouz、钟沛林(Peilin Zhong)和 Vahab Mirrokni 在预印本平台arXiv发表论文,提出了一种名为 Titans 的创新神经记忆架构,其核心是一个能在测试时动态学习和更新的神经长期记忆模块。

目前主流的 Transformer 架构在处理文本时面临着明显的局限。虽然它能够准确捕捉短距离的文本关系,但其注意力机制的计算复杂度会随着序列长度呈二次增长,这使得处理长文本时的计算成本变得难以承受。为解决这一问题,研究者们提出了 RetNet、Mamba 等线性递归模型。这些模型虽然将计算复杂度降至线性水平,但由于需要将信息压缩到固定大小的状态中,在处理超长序列时常常出现严重的信息丢失。

论文作者 Ali Behrouz 在 X 上解释了 Titans 的设计理念:“我们从人类记忆的视角重新思考这个问题。人类大脑会优先记住那些违反预期的事件,但有趣的是,一个事件虽然可能值得长期记住,它的'惊讶度'却会随时间推移而减弱。”基于这一对人类记忆特性的观察,研究团队开发出了 Titans 独特的记忆更新机制。

具体来说,Titans 包含三个核心组件,分别对应人类记忆系统的不同方面。

首先是基于注意力机制的核心短期记忆,负责处理当前上下文窗口内的信息,类似于人类的工作记忆。

其次是 Titans 最具创新性的神经长期记忆模块,它能在测试时动态学习和更新记忆,通过神经网络的梯度来衡量信息的重要性。这个模块将“惊讶度”分为瞬时惊讶度(momentary surprise)和过去惊讶度(past surprise)两个维度,前者衡量当前输入与已有记忆的差异程度,后者评估近期历史信息的重要性。其计算公式如下:

St = ηtSt-1 - θt∇ℓ(Mt-1; xt)

其中,ηtSt-1 代表过去惊讶,它通过一个数据依赖的衰减率 ηt 来控制历史信息的保留程度。当系统判断当前上下文与过去相关时,ηt 会接近 1,保持对历史信息的重视;当需要切换到新的上下文时,ηt 会接近 0,允许系统“忘记”不再相关的历史信息。

而 -θt∇ℓ(Mt-1; xt) 则代表瞬时惊讶,它通过计算损失函数关于输入的梯度来量化当前输入 xt 与已有记忆 Mt-1 之间的差异程度。θt 参数控制了系统对新信息的敏感度。这种设计让模型能够像人类一样,对违反预期的信息保持特别的关注。

在具体实现中,研究团队使用了一个关联记忆损失函数:

ℓ(Mt-1; xt) = ||Mt-1(kt) - vt||²₂

其中,输入 xt 会被转换为键值对:kt = xtWK 和 vt = xtWV。这种设计让模型能够学习和存储信息之间的关联关系,类似于人类记忆中的联想机制。

第三个组件是持久记忆,这是一组与数据无关的可学习参数,专门用于存储完成特定任务所需的基础知识,类似于人类的程序性记忆。

从效率角度来看,研究团队还特别优化了 Titans 的训练过程。Behrouz 在推文中提到:“我们通过 TTT(Sun et al., 2024)扩展了 mini-batch 梯度下降的可并行化对偶形式,并通过额外的矩阵乘法来实现权重衰减。”通过将 mini-batch 梯度下降的前向传播重新表述为矩阵乘法操作,他们实现了高效的并行训练。

然后,研究团队提出了三种将这些组件整合的变体架构:

  • MAC(Memory as Context):这种方案将记忆作为上下文信息处理,对输入序列进行分段,并使用过去的记忆状态来提取相应的记忆信息。

  • MAG(Memory as Gate):这种方案使用滑动窗口注意力机制作为短期记忆,同时使用神经记忆模块作为长期记忆,通过门控机制将两者结合。

  • MAL(Memory as Layer):这种方案将神经记忆作为深度神经网络的一个层,更接近传统的混合模型设计。

实验结果显示,Titans 在多个测试基准上都表现出色。

在语言建模任务上,拥有 760M 参数的 Titans(MAC) 在 WikiText 上达到了 19.93 的困惑度,显著优于同等规模的 Transformer++(25.21) 和 Mamba2(22.94)。在常识推理任务上,Titans 在包括 PIQA、HellaSwag、WinoGrande 等 9 个基准测试中的平均准确率达到 52.51%,超过了现有的最好成绩。

值得一提的是,在 BABILong 基准测试中,即使是参数量较小的 Titans 也展现出出色的性能。在需要在超长文档中进行推理的任务中,Titans(MAC) 不仅战胜了 Mamba2、RWKV 等现代模型,甚至超越了参数量大得多的 GPT-4 和 Llama3-70B。实验证明,Titans 能够有效处理超过 200 万个 token 的上下文窗口,这一突破将为长文本处理开辟新的可能。

研究团队表示,Titans 的 PyTorch 和 JAX 实现代码将很快开源。随着这一技术的进一步发展和应用,我们有望看到更多能够处理超长文本的高效 AI 系统涌现,这对于文档分析、长文本理解、知识检索等领域都具有重要意义。

当然,这项研究仍有进一步探索的空间。如何设计更高效的神经记忆架构、如何在更大规模的模型中应用这一技术,都是未来值得关注的方向。但毫无疑问,Titans 的出现为解决 AI 系统的长期依赖问题提供了一个极具前景的新方向。

参考资料:

1.https://arxiv.org/abs/2501.00663

2.https://x.com/behrouz_ali/status/1878859673555624373

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴黎圣日耳曼点杀阿森纳,连续第二年登顶欧洲之巅

巴黎圣日耳曼点杀阿森纳,连续第二年登顶欧洲之巅

乐道足球C
2026-05-31 10:27:01
朱芳雨赌对了!广东队签下1米83暴力控卫,保底能进总决赛了!

朱芳雨赌对了!广东队签下1米83暴力控卫,保底能进总决赛了!

绯雨儿
2026-05-31 09:54:32
央视痛批:零公里二手电动车!可跑不快的25km/h,谁替骑车人说话

央视痛批:零公里二手电动车!可跑不快的25km/h,谁替骑车人说话

刘哥谈体育
2026-05-31 04:51:51
最新战报!乌军一次打掉俄军20%反潜战力,俄罗斯怎么啦?

最新战报!乌军一次打掉俄军20%反潜战力,俄罗斯怎么啦?

兵国大事
2026-05-30 20:27:56
被嘲“法兰西女佣”,苏芒破防起诉!品牌高管履历曝光,细思极恐

被嘲“法兰西女佣”,苏芒破防起诉!品牌高管履历曝光,细思极恐

白浅娱乐聊
2026-05-31 04:10:48
郝劭文回台湾定居原因曝光,直播带货曾月赚近亿元,会赚更会做人

郝劭文回台湾定居原因曝光,直播带货曾月赚近亿元,会赚更会做人

以茶带书
2026-05-29 15:26:31
“本降专”第一人?演员林沐然从中戏转入大专,网友发现了华点

“本降专”第一人?演员林沐然从中戏转入大专,网友发现了华点

听心堂
2026-05-30 10:31:54
糟糕!骑士狂赞哈登,顶薪要没了?

糟糕!骑士狂赞哈登,顶薪要没了?

体育新角度
2026-05-30 18:25:04
向太称《给阿嬷的情书》百年不遇,只是偶然个例,救不了电影行业

向太称《给阿嬷的情书》百年不遇,只是偶然个例,救不了电影行业

韩小娱
2026-05-31 07:35:59
榛树导弹误击己方阵地,普京遭遇3.6亿损失闹剧

榛树导弹误击己方阵地,普京遭遇3.6亿损失闹剧

老头的传奇色彩
2026-05-30 08:45:10
比赖清德还狂!若2028年她当台湾地区领导人,解放军出手武力统台

比赖清德还狂!若2028年她当台湾地区领导人,解放军出手武力统台

别吵吵
2026-05-31 08:50:46
两发榛树打出去,战果却让人沉默,俄罗斯的末日警告越来越不灵了

两发榛树打出去,战果却让人沉默,俄罗斯的末日警告越来越不灵了

别吵吵
2026-05-31 08:45:43
长期跑步的人,会失去“肉欲”?网友:经常跑的人,那方面都不行

长期跑步的人,会失去“肉欲”?网友:经常跑的人,那方面都不行

马拉松跑步健身
2026-05-29 21:25:54
千年古墓发现嫦娥踪迹,嫦娥原来不叫嫦娥,难道神仙真的存在?

千年古墓发现嫦娥踪迹,嫦娥原来不叫嫦娥,难道神仙真的存在?

小杨历史
2026-05-31 07:04:35
Jennie惊爆曾交往「陆娱顶流」!资深经纪人:我们整个圈子都震惊

Jennie惊爆曾交往「陆娱顶流」!资深经纪人:我们整个圈子都震惊

ETtoday星光云
2026-05-29 12:22:42
上海队前往杭州!2外援没随队,怀特塞德大概率赛季报销

上海队前往杭州!2外援没随队,怀特塞德大概率赛季报销

体育哲人
2026-05-30 18:22:09
郑丽文启程赴美前夕,其核心副手突然请辞

郑丽文启程赴美前夕,其核心副手突然请辞

靓仔情感
2026-05-30 14:51:38
花了19万接下一个菜鸟驿站,开了三个月,收入支出跟大家伙聊聊

花了19万接下一个菜鸟驿站,开了三个月,收入支出跟大家伙聊聊

小谈食刻美食
2026-05-29 07:32:51
单位里有一个很奇怪的现象:你跟一个领导 3 年以上,不管你态度多好,多忠诚,一旦他状态不好,你就很容易成为他的“眼中钉”

单位里有一个很奇怪的现象:你跟一个领导 3 年以上,不管你态度多好,多忠诚,一旦他状态不好,你就很容易成为他的“眼中钉”

互联网思维
2026-05-29 23:35:13
比亚迪吹爆璇玑A3:完全自研、中国最强!评论区一点面子都不给

比亚迪吹爆璇玑A3:完全自研、中国最强!评论区一点面子都不给

谭谈社会
2026-05-29 16:29:54
2026-05-31 10:56:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16770文章数 514990关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

稻城亚丁景区是否有权在省道上"设卡" 央媒调查

头条要闻

稻城亚丁景区是否有权在省道上"设卡" 央媒调查

体育要闻

巴黎再度捧起欧冠奖杯 枪手众将黯然神伤

娱乐要闻

贾玲最新动作!侯明昊给虞书欣抬轿!

财经要闻

字节跳动的 "一盘大棋"

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

本地
艺术
健康
数码
军事航空

本地新闻

用剪纸的方式,打开江苏扬州

艺术要闻

溥仪致斯大林留苏申请书小楷精妙,白蕉被神化原因探析

尝试干细胞疗法如何避免踩坑?

数码要闻

华硕RC74XA掌机在韩获得认证,消息称基于AMD锐龙Z2 Extreme

军事要闻

美防长参加"香会" 就美中关系最新表态

无障碍浏览 进入关怀版