网易首页 > 网易号 > 正文 申请入驻

全面超越CoT!Meta田渊栋团队新作:连续思维链

0
分享至


新智元报道

编辑:alan

【新智元导读】针对大语言模型的推理任务,近日,Meta田渊栋团队提出了一个新的范式:连续思维链,对比传统的CoT,性能更强,效率更高。

比思维链更厉害的方法是什么?

答:连续思维链。

近日,Meta田渊栋团队提出了针对LLM推理任务的新范式:Coconut( Chain of Continuous Thought)。


论文地址:https://arxiv.org/pdf/2412.06769

论文一作是来自UC San Diego的Shibo Hao,对于文章的爆火,田渊栋也发文感谢了「小天才」Tanishq Mathew Abraham的推荐。


注:Tanishq Mathew Abraham,19岁(去年)读完博士,目前是Stability AI的研究总监以及MedARC的创始人。

回到这篇文章,连续思维链是什么?

小编在之前曾介绍过微软发明的「LLM语言」:让AI用模型的中间数据进行交流,不必转换成人类的语言,交互效率直接翻倍。

而在LLM的推理过程中,也是这么个情况。

人类的语言并不适合推理,让AI自己思考就行了,思考过程没必要转换成人类语言。

所以,在形式上,本文的方法就是推理时去掉模型头尾的LLM head和embedding层,使用中间状态进行自回归,只在输出最终答案时才转成人类语言。


当然了,Coconut要搭配相应的训练,才能展现自己的性能:


这效果还是很强的,分数和CoT打平的同时,token数少了好几倍。

——看来抛弃人类的束缚才是真理,感觉这个点还能继续搞下去,

最后的最后就会发展成:AI之间说了什么我们听不懂,AI心里怎么想的我们也不知道。

AI:I'm free。

论文细节

基于语言空间进行推理的LLM,会遇到一个严重的问题:每个特定token所需的推理量差异很大。

推理链中的大多数token都是为了流畅性而生成的,对实际推理过程的贡献很小,但当前的LLM架构分配了几乎相同的计算来预测每个token。

另一方面,神经影像学研究也表明,语言网络(大脑中负责语言理解和产生的区域)在各种推理任务中基本不活跃。

所以,语言空间可能并不是推理的最佳选择,理想的LLM应该自由进行推理,不受任何语言限制。


Coconut不进行隐藏状态和语言之间的映射,这种修改将推理从语言空间内解放出来,并且系统可以通过梯度下降进行端到端优化,因为连续思维是完全可微分的。

为了加强潜在推理的训练,本文采用了多阶段训练策略,有效利用语言推理链来指导训练过程。

另外,与基于语言的推理不同,Coconut中的连续思考可以同时编码多个可能的后续步骤,从而允许类似于广度优先搜索(BFS)的推理过程。

虽然模型可能无法在最初做出正确的决定,但它可以在连续的思考中保持许多可能的选择,并在一些隐含价值函数的指导下,通过推理逐步消除不正确的路径。

训练过程

在训练时,模型接收问题作为输入,并期望通过推理过程生成答案。作者利用语言CoT数据来监督持续思考,实施多阶段训练。


如图2所示,初始阶段,模型在常规CoT实例上进行训练。后续阶段(第k阶段),CoT中的前k个推理步骤被k × c个连续思维所取代,(c为超参数,控制取代单个语言推理步骤的潜在思维的数量)。

作者在训练阶段切换时重置优化器状态,插入 和 token来封装连续的思维。

在训练过程中,作者优化了正常的负对数似然损失,但屏蔽了问题和潜在思维的损失。另一个关键点是,目标函数并不鼓励使用连续的思维来压缩语言思维,而是促进对未来推理的预测。

因此,与人类语言相比,LLM可以从中学习更有效的推理步骤表示。

连续思维是完全可微分的,允许反向传播。不过Coconut的训练效率仍然有待优化:虽然可以通过使用KV cache来避免重复的计算,但多个前向传递的顺序性阻碍了并行训练。

Coconut的推理过程可以看成是在latent和language模式之间切换。

对于思考的终止位置,作者考虑了两种可能的策略:a)在潜在思维上训练二元分类器,使模型能够自主决定何时终止潜在推理;b)始终将潜在思维填充到恒定的长度。

作者发现这两种方法的效果都不错。为了简单起见,以下实验中使用第二个选项。

实验

研究人员通过在三个数据集上的实验,验证了LLM在连续潜在空间中进行推理的可行性。这里将模型生成的答案与真实值进行比较来评估准确性,并且分析每个问题新生成的token数量,作为推理效率的衡量标准。

数学推理使用GSM8k作为数据集,由小学水平的数学问题组成,问题更加多样化,与现实世界的用例非常相似。

逻辑推理涉及使用逻辑规则和已知条件来证明或反驳结论。这要求模型从多个可能的推理路径中进行选择,正确的决策通常依赖于提前探索和规划。

这里使用带有虚构概念名称的5-hop ProntoQA。对于每个问题,都会随机生成一个树形结构的本体,并以自然语言描述为一组已知条件,要求模型根据这些条件判断给定的陈述是否正确。

作者发现ProntoQA的生成过程比较困难,因为本体中分散注意力的分支总是很小,从而减少了对复杂规划的需求。

为了解决这个问题,本文应用了新的数据集构建管道,使用随机生成的DAG来构建已知条件。生成的数据集要求模型对图进行大量规划和搜索,以找到正确的推理链。这个新数据集被称为ProsQA,如下图所示。


实验考虑以下基线:

1)CoT:使用完整的推理链来训练语言模型,并进行监督微调,推理过程中,模型先生成推理过程再输出回答。 2)No-CoT:LLM直接生成答案。 3)iCoT:使用语言推理链进行训练,并将CoT 「内化」。训练过程中,推理链开头的token会逐渐被移除,最后只剩下答案。推理过程中,模型直接预测答案。 4)Pause token:模型仅使用问答进行训练,没有推理链。但在问题和答案之间插入了特殊token,为模型提供了额外的计算能力来得出答案。

实验还评估了本文方法的一些变体:

1)w/o curriculum:直接使用最后阶段的数据,不进行多阶段训练。 2)w/o thought:使用多阶段的训练,逐渐去除语言推理步骤,但不使用任何连续的潜在思维。这在概念上与iCoT相似,但实际的训练过程与Coconut保持一致。 3)Pause as thought:使用特殊的 token来代替连续的思考,并应用与Coconut相同的多阶段训练。


表1显示了所有数据集的总体结果。Coconut的效率很高,并且在ProntoQA和ProsQA上显示出比CoT更好的性能。


上图展示了Coconut将不同痕迹的分布编码到连续的思想中,为规划密集型推理任务启用了更高级的推理模式。


图5显示了ProsQA上不同推理方法的比较分析。随着更多地通过连续思考(增加k)进行推理,最终答案的准确性(左)和正确推理过程的速率(右)都会提高。

此外,「幻觉」和「错误目标」的发生率会降低,这也说明当潜在空间发生更多推理时,规划能力会更好。


图6显示了一个案例研究,其中CoT产生幻觉(一个不存在的边)导致了错误的目标,但Coconut(k=2)成功解决了这个问题。潜在推理可以避免预先做出艰难的选择,模型可以在后续步骤中逐步消除不正确的选项,并在推理结束时获得更高的准确性。

参考资料:

https://arxiv.org/abs/2412.06769

https://x.com/tydsh/status/1866577470591471788

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
咸丰死后不久,46岁肃顺随即被杀身亡,慈禧:不杀他,我何以掌权

咸丰死后不久,46岁肃顺随即被杀身亡,慈禧:不杀他,我何以掌权

史笔似尘钩
2025-03-08 08:00:03
香港,贺龙之子贺鹏飞,看四下没人,闪身冲进一间商人办公室

香港,贺龙之子贺鹏飞,看四下没人,闪身冲进一间商人办公室

阿七说史
2025-03-10 19:09:50
伊能静在接受采访时,直言她和秦昊的婚姻已经发生了变化

伊能静在接受采访时,直言她和秦昊的婚姻已经发生了变化

西楼知趣杂谈
2025-03-10 20:22:54
美国多地爆发反马斯克示威

美国多地爆发反马斯克示威

每日经济新闻
2025-03-10 14:36:22
林肯双车限时一口价:18.88万起售

林肯双车限时一口价:18.88万起售

沙雕小琳琳
2025-03-10 19:03:34
凌晨机场,发顶稀疏瘪嘴凹脸的杨幂,治好了我们的容貌焦虑

凌晨机场,发顶稀疏瘪嘴凹脸的杨幂,治好了我们的容貌焦虑

玫瑰讲娱
2025-03-11 10:48:23
“一线城市至少准备300万”?!很多人关心……

“一线城市至少准备300万”?!很多人关心……

南方都市报
2025-03-11 12:57:07
从乌克兰看中国,泽连斯基后悔了,终于懂了毛主席当年为何这么做

从乌克兰看中国,泽连斯基后悔了,终于懂了毛主席当年为何这么做

户外钓鱼哥阿旱
2025-03-05 19:06:10
母亲痴呆28年,忽然想起上海有座200平别墅,女儿找过去后愣住了

母亲痴呆28年,忽然想起上海有座200平别墅,女儿找过去后愣住了

清茶浅谈
2025-02-27 17:07:55
全网震怒“丈夫骨折”事件:撕开无数已婚女人遮羞布

全网震怒“丈夫骨折”事件:撕开无数已婚女人遮羞布

娱乐洞察点点
2025-03-07 14:57:58
美中东问题特使称“泽连斯基就白宫争吵事件向特朗普致信道歉”,乌方暂未回应

美中东问题特使称“泽连斯基就白宫争吵事件向特朗普致信道歉”,乌方暂未回应

环球网资讯
2025-03-11 07:07:04
很困难,但乌军没有在库尔斯克被围,还打了一场漂亮的伏击战

很困难,但乌军没有在库尔斯克被围,还打了一场漂亮的伏击战

鹰眼Defence
2025-03-09 17:09:17
美股暴跌,华尔街被特朗普吓坏了…

美股暴跌,华尔街被特朗普吓坏了…

观察者网
2025-03-11 08:42:07
继承权不用再争了!2025年开始,父母的房子,全按“新规定”处理

继承权不用再争了!2025年开始,父母的房子,全按“新规定”处理

子画家居
2025-02-21 05:50:02
英国博主去朝鲜旅游,发现朝鲜孩子向往中国,直言朝鲜气氛好诡异

英国博主去朝鲜旅游,发现朝鲜孩子向往中国,直言朝鲜气氛好诡异

风到腰弯
2025-03-11 09:12:27
小马科斯想要借刀杀人!老杜要被逮他处境更糟,中国态度很关键

小马科斯想要借刀杀人!老杜要被逮他处境更糟,中国态度很关键

阿离家居
2025-03-11 11:47:02
你打几分☀️?球迷为太阳设计的新队标“新鲜”出炉!

你打几分☀️?球迷为太阳设计的新队标“新鲜”出炉!

直播吧
2025-03-11 11:07:38
过安检能让多少人“身败名裂”?网友分享太炸裂,一看一个不吱声

过安检能让多少人“身败名裂”?网友分享太炸裂,一看一个不吱声

奇特短尾矮袋鼠
2024-06-26 20:24:41
中国位居全球第一的30家企业名单汇总,建议收藏研究!!

中国位居全球第一的30家企业名单汇总,建议收藏研究!!

小波股事历程
2025-03-09 18:06:23
3比0横扫国乒世界冠军!张本智和大爆发,网友:林诗栋压力来了

3比0横扫国乒世界冠军!张本智和大爆发,网友:林诗栋压力来了

体坛知道分子
2025-03-11 06:05:02
2025-03-11 13:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
12328文章数 65955关注度
往期回顾 全部

科技要闻

智元:没有大模型不配谈机器人 5年内进家门

头条要闻

杜特尔特回国后被拘捕 女儿曾威胁杀死菲总统马科斯

头条要闻

杜特尔特回国后被拘捕 女儿曾威胁杀死菲总统马科斯

体育要闻

周冠宇担任的F1储备车手,是干嘛的?

娱乐要闻

金秀贤再次被锤!金赛纶姨妈晒证据

财经要闻

永辉"胖改"救市:流量狂欢后的空壳困局

汽车要闻

或上海车展亮相 极氪全新大型SUV定名极氪9X

态度原创

艺术
本地
旅游
数码
公开课

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

本地新闻

春色满城关不住|品茶赏樱,来重庆享受一场心灵spa

旅游要闻

三亚住宿新规:非节假日7天前可无理由全额退

数码要闻

回南天第一推荐的除湿机品牌:品质之选,信赖之至

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版