网易首页 > 网易号 > 正文 申请入驻

新研究揭示DeepSeek弱点:频繁切换思路欠思考,最短答案往往就对

0
分享至

梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI

DeepSeek和o1/o3一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了

最新研究揭示:

在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败——这种现象被研究者称为Underthinking(欠思考)。

研究团队来自腾讯AI实验室、苏州大学和上海交通大学,主要研究对象是开源的DeepSeek-R1和Qwen QwQ系列模型。

通过分析AI的错误答案,他们发现当前的推理大模型经常在思考早期就走上了正确的路线,但倾向于“浅尝辄止”,很快开始探索别的思路,导致后续生成的数千个tokens对解题毫无贡献。

这种“无效努力”不仅浪费计算资源,还显著降低了答案的正确率。

“三心二意”是罪魁祸首

这一现象在解决数学竞赛题等更为复杂任务时尤为明显。

为了系统分析,团队在三个具有挑战性的测试集MATH500、GPQA Diamond和AIME2024上,对类o1模型QwQ-32B-Preview、DeepSeek-R1-671B等进行了实验。

下图比较了正确和错误回答中的token使用量和思维切换次数。平均来看,类o1模型在错误回答中比正确回答多消耗了225%的token,原因是思维切换频率增加了418%。

为了深入分析这一现象,研究团队开发了一套评估框架,用于判断被放弃的推理路径是否实际上足以推导出正确答案。

结果观察到,许多模型在回答开头阶段的思路是正确的,但并未继续深入完成推理。

超过70%的错误回答中至少包含一个正确的思路。此外,在超过50%的错误回答中,有10%以上的思路是正确的。

如下图所示的例子,例如,Thought 1通过识别给定方程类似于以(0,0)和(20,11)为中心的椭圆方程,启动了正确的解释。将两个表达式设为相等,是寻找满足这两个方程的公共点(x, y)的有效方法。

然而,模型并未专注于深入探索这一合理思路,使用进一步的代数操作和优化技术进行分析,而是频繁切换思路,额外消耗了约7270个token,却依然未能得出正确答案。

最终,它得出一个缺乏扩展COT过程支持的猜测答案。

基于这些观察,研究人员提出了一个用于量化Underthinking程度的指标(Underthinking Metric)。

这个指标通过测量错误答案中的token使用效率来评估推理效率,计算从回答开始到第一个正确思路出现所需的token数量与总token数量的比值。

实验结果表明,所有测试的类o1模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。

在MATH500-Hard和GPQA Diamond数据集上,性能更优的DeepSeek-R1-671B模型在取得更高准确率的同时,其UT得分也更高,表明错误回答中存在更多思维不足。

这意味着,尽管模型整体能力更强,但在不确定时可能生成更长但效率较低的推理过程,可能是因为模型探索了多个错误的推理路径,却未能有效收敛到正确解答。

相反,在AIME2024测试集中,DeepSeek-R1-671B模型不仅取得了更高的准确率,还表现出较低的UT得分,反映出较少的思维不足和更高的token效率。

这表明模型在该任务中,即使未得出正确答案,其推理过程依然保持专注和高效,团队表示这可能是因为模型与 AIME2024所要求的问题类型和推理过程更好地对齐。

理解思维不足现象对于开发能够提供正确答案并具备有效推理过程的模型至关重要。

如何让AI学会“一心一意”

如何让模型像优秀学生一样“沉下心来钻研”?

研究者借鉴了人类考试策略,提出了一种“思路切换惩罚机制”(Thought Switching Penalty,TIP)。

其原理类似于考试时给自己定规矩:“先专注当前方法,至少尝试10分钟再换思路”。

技术细节上,TIP会对触发思路切换的关键词施加惩罚,降低这些词在解码过程中的生成概率,迫使模型在当前路径上探索更久。

例如,当模型开始写“Alternatively, we can consider…”时,TIP会通过调整参数(惩罚强度α和持续时间β),抑制这种过早的切换倾向。

实验结果显示,加入TIP能让模型在数学测试上的准确率上升,同时UT Score下降,说明既减少了无效切换,又提高了答案质量。

例如在AIME2024数学竞赛测试上,加入TIP的QwQ-32B-Preview模型准确率从41.7%提升至45.8%,同时UT Score从72.4降至68.2。

并且这种“无痛升级”无需重新训练模型,仅需调整解码策略,展现了其实用价值。

One More Thing

UC Berkeley教授Alex Dimakis几乎同时分享了类似的观察,

对于DeepSeek-R1和所有推理模型,错误的答案更长,而正确的答案要短得多。

基于此,他们提出一个简单的解决办法,称为“简洁解码”(Laconic decoding)。

并行运行5次模型,从答案中选择tokens最少的。

初步实验结果表示,简洁解码在AIME2024测试上能提高6%-7%的准确率,比Consensus Decoding更好也更快。

论文地址:https://arxiv.org/abs/2501.18585

参考链接:
[1]https://x.com/tuzhaopeng/status/1885179412163027406
[2]https://x.com/AlexGDimakis/status/1885447830120362099

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
当你和领导讲话的时候,只要对方职位比你高,你千万不要在人家面前随意提起另一个和他有关系的人,否则就是给自己挖坑。

当你和领导讲话的时候,只要对方职位比你高,你千万不要在人家面前随意提起另一个和他有关系的人,否则就是给自己挖坑。

德鲁克博雅管理
2026-05-19 17:07:27
与中方谈完,特朗普向台提出4个“不要”,台连夜开会:感谢美国

与中方谈完,特朗普向台提出4个“不要”,台连夜开会:感谢美国

江山此夜季
2026-05-19 21:32:46
st闻泰、st洲际、st海王、st三房、st元道,它们会直接跌退市吗?

st闻泰、st洲际、st海王、st三房、st元道,它们会直接跌退市吗?

丁丁鲤史纪
2026-05-19 17:43:05
未来4年,请把现金当成你的命:2026-2030,它比黄金更金贵

未来4年,请把现金当成你的命:2026-2030,它比黄金更金贵

小蜜情感说
2026-05-20 00:17:42
欧美发达国家对印裔的幻想,终于彻底破灭了!

欧美发达国家对印裔的幻想,终于彻底破灭了!

寰球经纬所
2026-05-18 14:54:12
孩子自卑时,鼓励是虚、比较是害、安慰是废,真正聪明的父母只做这两件事

孩子自卑时,鼓励是虚、比较是害、安慰是废,真正聪明的父母只做这两件事

心理观察局
2026-05-16 10:13:45
相伴17年终究败给现实,65岁徐威年老色衰,45岁张怡宁风华正茂

相伴17年终究败给现实,65岁徐威年老色衰,45岁张怡宁风华正茂

翰飞观事
2026-05-19 11:30:40
国少挺进2026年U-17亚洲杯四强,韩媒感慨,“日韩对决”化为泡影

国少挺进2026年U-17亚洲杯四强,韩媒感慨,“日韩对决”化为泡影

兰亭墨未干
2026-05-19 16:18:54
什么时候让你意识到这就是命,考公四次落榜,随便报个东大就中了

什么时候让你意识到这就是命,考公四次落榜,随便报个东大就中了

夜深爱杂谈
2026-05-11 07:41:40
千年前一群伊朗人迁徙中国,更改姓氏定居甘肃,如今已有170万人

千年前一群伊朗人迁徙中国,更改姓氏定居甘肃,如今已有170万人

顾史
2026-05-17 10:47:12
扎心的现象:很多中国男人已经养不起家了,无数普通顶梁柱被压垮

扎心的现象:很多中国男人已经养不起家了,无数普通顶梁柱被压垮

捣蛋窝
2026-04-28 11:29:00
原省长落马,中纪委周末打虎!上周,还有中央巡视组内鬼被公诉

原省长落马,中纪委周末打虎!上周,还有中央巡视组内鬼被公诉

上观新闻
2026-05-18 10:51:03
普京专机刚要启程,莫斯科突然遇袭,谁想坏了中俄的好事?

普京专机刚要启程,莫斯科突然遇袭,谁想坏了中俄的好事?

起喜电影
2026-05-20 00:14:21
普京刚宣布访华,600架无人机突然空袭莫斯科,泽连斯基在赌什么

普京刚宣布访华,600架无人机突然空袭莫斯科,泽连斯基在赌什么

咣当地球
2026-05-20 00:28:33
35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

离离言几许
2026-04-21 19:53:18
省委书记、省长专程到消防总队看望慰问

省委书记、省长专程到消防总队看望慰问

靠山屯闲话
2026-05-19 15:20:09
纳达尔退役近两年坦言最大遗憾:“当初不该做这件事”

纳达尔退役近两年坦言最大遗憾:“当初不该做这件事”

网球之家
2026-05-18 23:35:47
为什么“地下停车位”突然没人买了?内行人说出实情,恍然大悟

为什么“地下停车位”突然没人买了?内行人说出实情,恍然大悟

说故事的阿袭
2026-05-17 21:51:13
钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

医学科普汇
2026-05-13 23:30:08
广东最新消息:朱总欲交易大鸟,决定不续约奶茶,黄明依有望离队

广东最新消息:朱总欲交易大鸟,决定不续约奶茶,黄明依有望离队

宏远小师哥
2026-05-19 09:05:15
2026-05-20 01:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
12655文章数 176465关注度
往期回顾 全部

科技要闻

马斯克败诉,法院判他起诉OpenAI太晚了

头条要闻

媒体:特朗普为何抛涉台"四不"说法 鲁比奥解释清楚了

头条要闻

媒体:特朗普为何抛涉台"四不"说法 鲁比奥解释清楚了

体育要闻

文班亚马:没拿到MVP,就证明自己是MVP

娱乐要闻

姚晨删博难平众怒,为什么她还能蹦哒

财经要闻

洁丽雅硬刚豪门内斗传言

汽车要闻

焕新极氪009上市41.38万起 齐家版让MPV回归家庭

态度原创

时尚
家居
教育
本地
军事航空

57岁恶女出手整治浪姐,全网拍手叫好

家居要闻

观山隐秀 心灵沉淀

教育要闻

中考数学,-0的倒数是多少?

本地新闻

别搜晋江小说了,去看真的晋江

军事要闻

特朗普暂缓打击伊朗 称系应中东三国请求

无障碍浏览 进入关怀版