网易首页 > 网易号 > 正文 申请入驻

AI话痨终结者!UCSD清华提出「思维扫描术」Dynasor-CoT,推理巨省token

0
分享至

新智元报道

编辑:好困 犀牛

【新智元导读】推理模型在复杂任务上表现惊艳,缺点是低下的token效率。UCSD清华等机构的研究人员发现,问题根源在于模型的「自我怀疑」!研究团队提出了Dynasor-CoT,一种无需训练、侵入性小且简单的方法。实验证明,Dynasor-CoT在保持准确性的同时,能减少高达29%的token消耗,且不增加推理延迟。

这段时间,诸如DeepSeek-R1和OpenAI o1/o3这类的CoT推理模型,在复杂任务上展现出了惊人的性能。

然而,与早期模型相比,它们的token效率却非常之低。即,需要消耗更多的token才能达到相同的准确率。

下图展示了传统模型的token效率曲线比推理模型陡峭得多。

最近,来自加州大学圣地亚哥分校、清华等机构的研究人员揪出了罪魁祸首——「自我怀疑」。

论文地址:https://arxiv.org/abs/2412.20993

项目主页:https://hao-ai-lab.github.io/blogs/dynasor-cot/

代码地址:https://github.com/hao-ai-lab/Dynasor

Demo:https://hao-ai-lab.github.io/demo/dynasor-cot

换句话说就是,模型明明早就算出正确答案,却要反复验算纠结,白白耗费海量计算资源!

以一个简单问题 (1+2i)*6-3i测试为例:传统Qwen-7B用180个token轻松解题,而升级后的Deepseek版Qwen-7B虽在第340个token就得出正确答案,却硬生生续写1000+token反复验证!

这种「学霸强迫症」,让DeepSeek等顶尖模型浪费了高达70%的算力!

为了解决模型的「自我怀疑」问题,研究团队提出了Dynasor-CoT,一种无需训练、侵入性最小且简单的方法,用于长链式推理(CoT)。

这种方法结合了基于确定性的启发式方法与「思维CT扫描术」技术,以动态确定(推理链的)终止点。在保持准确性的同时有效地截断推理链。

实现了高达29%的token减少,同时不影响准确性,也不会给关键推理路径带来额外的延迟。

目前,团队已将这款「AI话痨终结者」系统全面开源,快来看看你的AI能省多少token吧!

值得一提的是,本文的作者组USCD张昊实验室还曾经推出过诸多知名研究项目,包括如今风靡全球的大模型竞技场(LLM Arena、vLLM,Prefill-decode分离式服务架构等。

AI「思维CT扫描术」

为了系统地研究这个现象,研究人员开发了一种「思维CT扫描术」(Probe-In-The-Middle)。

通过在模型推理过程中插入特定提示(比如「啊!我悟了,答案是:」),来提取模型某一个中间思考节点的答案,从而确定到底模型最早在什么时候得到了正确答案。

就像考试时监考老师突然抽走草稿纸,逼迫AI提前交卷!

下图展示了不使用和使用「思维CT扫描术」两种方式的准确率对比分析。左边采用标准推理。右边使用「思维CT扫描术」技术提取早期答案,可以看出在50%的token减少下具有等效的准确性。

在相同的token预算下,绿色区域越早出现表示正确答案到达得越早——明显更绿的右侧面板表明模型实际上知道答案的时间比标准推理中显示的要早得多。

以AMC23数据集为例,推理模型通常在早期就得到了正确答案(中位数:830个token),但由于「自我怀疑」会继续生成不必要的token(中位数:2.7K个token)。

这种自我怀疑现象严重影响了token效率,因为模型即使内心已经对答案有一定把握,还是会继续推理。

基于信心值的早停策略,巧妙减少token消耗!

想象一下,我们给AI装了一个智能「话痨终结者」。每当AI说了一定数量的话(比如64个token),「思维CT扫描术」(probe-in-the-middle)就会悄悄启动:

  1. 首先,像医生做CT扫描一样,给AI的思维来个「断层扫描」,提取它当前的答案。

  2. 有趣的是,AI完全不知道自己被「扫描」了!它会继续自顾自地推理,继续写解题步骤。

  3. 如果AI连续N次的「CT扫描」结果都显示同一个答案,系统就会判定AI非常自信,并果断按下停止键。坚定地告诉这位同学:「你已经答对了,不用再证明了!」

Dynasor-CoT通过三种关键机制提高长CoT LLM推理中的token效率:提取答案、确定性评估和生成后验证。

下图展示了Dynasor-CoT方法。如果模型回答比较确定则退出(案例 1),遇到有犹豫含义的词汇(例如,等等)则继续生成(案例 3),如果模型推理不足够确定也继续生成(案例 2)。

中间探针

研究人员在模型生成过程中引入了名为「中间探针」(probe-in-the-middle)的战略干预。

他们在模型推理的中间阶段添加精心设计的引导,以明确地提取出模型当前的答案。

这种方法利用了他们的观察,即推理LLM通常在完成其完整的推理链之前就能达到正确答案。

当LLM已经在其内部得出结论时,这种早期提取技术显著降低了计算成本。

通过答案一致性进行确定性评估

研究人员实现了一种动态确定性评估机制,该机制定期(例如每32、64或128个标记)监控模型的输出。

在每个间隔内,探测模型以提取和存储当前答案,然后允许LLM继续其生成。重要的是,后续的生成不受探测标记的影响,从而实现答案提取和原始生成的并行执行。

当模型在多个间隔内产生一致的答案时,将其模式解释为确定性的指标,遵循certaindex方法Dynasor。这种方法为模型的确定性提供了定量度量。

AI的微表情识别术:揪出不自信的时刻!

研究人员发现,AI也有自己的「微表情」!通过仔细观察AI的语言习惯,他们找到了判断AI是否自信的妙招:

  • 当AI说出「等等」、「嗯...」这样的词时,就像人类皱眉思考或挠头的动作,说明它对自己的答案并不太有把握。

  • 这时候,即使「思维CT扫描」得到了答案,我们也要对它保持警惕,不能轻易相信一个支支吾吾的回答。

  • 这种语言习惯分析,就像是给AI装了一个「情绪探测器」,能够精准捕捉到它的不自信时刻!

总的说来,这种方法利用了模型在中间阶段得出结论的能力,也保持了针对过早或不确定响应的强大保障措施。

Certaindex:一个更野心勃勃的目标!

这套基于信心值的策略远不止于此,它还有更广阔的应用前景:

  • 它可以推广到各种高级推理算法中,比如自洽性检验(self-consistency)、蒙特卡洛树搜索(MCTS)等。

  • 就像一个通用的「自信度测量仪」,能够适应不同的思维方式。

  • 不管AI用什么方法思考,这个系统都能准确判断:「嗯,这个答案它是真的有把握。」

通过这种方式,研究人员不仅让AI变得更高效,还让它的思维过程变得更透明、更可控。并且,还能 知道什么时候该停下来,而不是无休止地解释、验证。

最重要的是,这个方法不需要重新训练模型,可以直接应用到现有的AI系统中,堪称即插即用的效率神器!

Dynasor:大模型推理的「调度大师」

简单说,Dynasor就像是大模型推理任务的「智能调度系统」:

1. 智能资源分配

  • 基于Certaindex(信心值系统)动态分配计算资源

  • 像调度员一样安排每个推理任务的优先级和资源

2. 结构化管理

  • 把复杂推理任务变成结构化的程序

  • 在应用层和系统层实现高效调度

  • 通过缓存优化提升性能

总之,它就是让AI推理既快又准的效率神器!就像给大模型装了个智能管家,让推理过程更加高效有序。

下图展示了该架构通过本地应用程序组件与服务器端系统管理之间的相互作用,实现了高效的资源分配。

实验结果:大幅提升推理效率!

研究团队在多个数学推理数据集(AIME24、AMC23和MATH500)上测试了这套系统,使用了不同规模的DeepSeek模型(7B、14B和32B)。

下图评估了不同的探测间隔(如32、64等),这些间隔通过不同颜色的线条表示,并且最大token预算为16K。

对于每个间隔,研究人员调整了早期终止参数N(所需的连续一致答案的数量),从而生成每条线上的不同点。所有配置都实现了显著的token节省,在保持与基准模型相当的准确度的同时,将token使用量减少了最多29%。

为了公平比较,适当的准确度阈值已根据模型规模进行校准——对于32B模型,使用严格的阈值标准,而对于较小的模型,则使用较低的阈值,同时在较简单的任务中设置更高的目标,以便达到更高的准确度。

对于该方法在token减少方面表现最好的10%问题,研究人员观察到AIME节省了34%的token,MATH500节省了53%。

在最优的1%问题中效果更加显著——AIME节省了53%,MATH500节省了高达81%!

这种表现显示了这种动态方法相对于固定token预算的优势,因为不同问题在达到解决方案时对token的需求有所不同。

为了验证可扩展性,研究人员将实验扩展到更大的DeepSeek-R1模型。

下图显示了Dynasor-CoT在DeepSeek-R1上和较小蒸馏模型上表现一致,实现持续的效率提升:DeepSeek-R1在AIME问题上实现了12%的token节省,在AMC问题上实现了24%,同时保持了基线准确率水平。

参考资料:

https://hao-ai-lab.github.io/blogs/

https://github.com/hao-ai-lab/Dynasor

https://hao-ai-lab.github.io/demo/dynasor-cot

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
景甜难脱身?娱记称富豪已走程序,业内猜测她凑不齐5000万才闹大

景甜难脱身?娱记称富豪已走程序,业内猜测她凑不齐5000万才闹大

萌神木木
2026-05-23 20:03:30
卫健委已将左氧氟沙星列为重点监控药物!提醒:服用千万注意

卫健委已将左氧氟沙星列为重点监控药物!提醒:服用千万注意

健康科普365
2026-05-25 22:15:03
网购时要注意了,“旗舰店”和“官方店”一字之差,天壤地别!

网购时要注意了,“旗舰店”和“官方店”一字之差,天壤地别!

另子维爱读史
2026-05-25 07:55:09
荨麻,不要读xún má,丢不起那个人!

荨麻,不要读xún má,丢不起那个人!

未央看点
2026-05-19 08:54:23
霍去病啊,这人,说白了就是老天爷临时下凡一趟

霍去病啊,这人,说白了就是老天爷临时下凡一趟

老达子
2026-05-25 06:25:03
一波未平一波又起,徐巧芯向王光慈开火,王光慈曝光重大医嘱

一波未平一波又起,徐巧芯向王光慈开火,王光慈曝光重大医嘱

DS北风
2026-05-26 09:06:05
王楚钦母亲首次谈儿媳标准!3个要求曝光后,网友集体沉默了

王楚钦母亲首次谈儿媳标准!3个要求曝光后,网友集体沉默了

橙星文娱
2026-05-26 10:53:35
哈登:其实我觉得我打得还不错,下赛季百分百留在骑士

哈登:其实我觉得我打得还不错,下赛季百分百留在骑士

懂球帝
2026-05-26 14:40:05
我在国安局工作20年,抓过很多间谍,但有一个让我终身难忘

我在国安局工作20年,抓过很多间谍,但有一个让我终身难忘

千秋文化
2026-03-06 20:59:14
国民党态度大转弯:之前还反对台独,转身又说台湾不是中国一部分

国民党态度大转弯:之前还反对台独,转身又说台湾不是中国一部分

解锁世界风云
2026-05-26 11:10:14
以为上火,实际却是癌症信号!天热出现这3种情况,别疏忽大意!

以为上火,实际却是癌症信号!天热出现这3种情况,别疏忽大意!

芹姐说生活
2026-05-26 16:17:11
逼自己看了孙杨X易立竞的采访,我一人血书孙杨出一本《说话之道》...

逼自己看了孙杨X易立竞的采访,我一人血书孙杨出一本《说话之道》...

毕导
2026-05-25 17:23:12
半导体大佬集体减持后,杭州豪宅被抢疯了!

半导体大佬集体减持后,杭州豪宅被抢疯了!

樱桃大房子
2026-05-25 21:52:46
4艘美国巨轮直奔中国,中俄千亿管道项目搁浅,日本彻底陪跑

4艘美国巨轮直奔中国,中俄千亿管道项目搁浅,日本彻底陪跑

雅儿电影解说
2026-05-26 09:58:04
*ST闻泰录得4天3板

*ST闻泰录得4天3板

证券时报
2026-05-26 10:36:11
后悔啊!一女子哭诉二婚遭遇“报应”,丈夫整日游手好闲,不着家

后悔啊!一女子哭诉二婚遭遇“报应”,丈夫整日游手好闲,不着家

火山詩话
2026-05-26 10:16:57
涉及多个职务,佛山市发布5月份人事任免

涉及多个职务,佛山市发布5月份人事任免

南方都市报
2026-05-26 11:19:18
怕王鹤棣凉得太慢吗?经纪人也下场发文内涵!掉粉、反噬只是开始

怕王鹤棣凉得太慢吗?经纪人也下场发文内涵!掉粉、反噬只是开始

小娱乐悠悠
2026-05-26 08:56:12
王晶没说谎,58岁久居“日本农村”的郑伊健,现状印证了他的评价

王晶没说谎,58岁久居“日本农村”的郑伊健,现状印证了他的评价

小兰聊历史
2026-05-25 07:41:20
越扒越有,景甜又被曝猛料,富商要求2亿和解费,张继科太无辜

越扒越有,景甜又被曝猛料,富商要求2亿和解费,张继科太无辜

八斗小先生
2026-05-26 11:25:19
2026-05-26 16:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15311文章数 66890关注度
往期回顾 全部

科技要闻

今年秋季,麒麟芯片将首次落地"逻辑折叠"

头条要闻

外媒称伊朗愿意"将浓缩铀移至中国" 中方回应

头条要闻

外媒称伊朗愿意"将浓缩铀移至中国" 中方回应

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

亲子
旅游
艺术
时尚
公开课

亲子要闻

为什么是妈妈笑了,孩子才能好?

旅游要闻

深挖西游文化 河南济源以经典赋能文旅融合发展

艺术要闻

画美,文字也美 | 日本著名画家内田正泰

全网刷屏,华语乐坛“嫡长女”终于来了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版