网易首页 > 网易号 > 正文 申请入驻

北大千问团队推出数学专用版CriticGPT,找茬让大模型进步更快

0
分享至

蔡泽凡 投稿
量子位 | 公众号 QbitAI

批评不仅能让人进步,也能让大模型的能力提升。

OpenAI就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是,就在CriticGPT放出的前几天,北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。

在无需训练的设置下,验证器能够在推理时辅助模型在GSM8K上的准确率从86.6%提升到88.2%。

在GSM8K数据集上,它可以让模型的准确率从86.6%提升到88.2%。

CriticGPT的核心思路是在代码中故意设置bug并进行详细标注,然后用得到的数据训练出会debug的模型。

北大团队发现,这种方法不仅在代码当中有用,也能帮助语言模型解决数学问题

于是团队利用相似的思路,把代码换成数学问题,推出了“数学版CriticGPT”——Math-Minos

用GPT4逐步提出修正意见

在数学推理领域,验证解决方案的正确性,是确保推理质量的关键步骤。

然而,现有的数学验证器大多依赖于二元分类标签进行训练,这种方式在提供正确或错误原因的解释上存在明显不足,无法给验证器提供足够充分的监督信号来训练。

Math-Minos则克服了这一局限,提供了更深入的解释,极大地丰富了验证器的训练信息。

它引入了逐步的自然语言反馈作为理由标签,不仅指出了解决方案的正误,还能逐步分析出错误的原因。

在自然语言反馈的获取上,研究团队一开始使用GPT-4生成训练数据,但通过实验发现,即使是GPT-4,在逐步评价数学推理任务时也会出现一定比例的错误。

为了一定程度避免这个问题,研究人员通过在提示中引入步骤级别的二元分类标签,简化了GPT-4的任务,使得GPT-4能够更准确地生成评估。

首先,通过监督式微调,使用自然语言反馈作为训练数据,有效提升了模型的评估能力。

其次,通过标准的ORM(Outcome Reward Model,输出奖励模型)和PRM(Process Reward Model,过程奖励模型)训练,实现了高效的推理,这种做法有两个好处。

一是通过两阶段训练,可以将二分类数据和监督微调数据解耦。

由于监督信号的稀疏性,训练二分类的数据往往远多于监督微调的数据,而研究发现,仅需要少量的监督微调数据,就可以很大程度提升模型的评估能力

另一方面,在验证器进行验证时,不需要显示地生成自然语言反馈,让推理过程更高效。

ORM任务表现明显提升

总得来看,研究人员在训练阶段添加了30K的自然语言反馈数据,为Mistral-7B验证器带来了数学能力的提升,在Best-of-256的实验设置下:

在ORM的设置下,MATH-Minos将Mistral-7B的准确率在GSM8K数据集从86.2%提升到87.3%,在MATH数据集从35.9%提升到37.4%。

在PRM的设置下,MATH-Minos将Mistral-7B的准确率在GSM8K数据集从87.1%提升到87.6%,在MATH数据集从36.7%提升到37.8%。

在与Self-Consistency结合的设置下,MATH-Minos将Mistral-7B的准确率在GSM8K数据集从87.1%提升到88.2%,在MATH数据集从37.8%提升到38.6%。

在ORM和PRM任务设置中,Math-Minos均展现出了优越的性能,特别是在ORM设置中,其改进更为显著。

另外,研究团队还对生成器在步骤级别产生的错误进行了深入分析,将其归类为五种类型——无关错误、累积错误、计算错误、逻辑错误和其他错误。

分析结果表明,在多步骤推理中,步骤错误的可能原因有很多种,而且模型在这些错误类型中都有可能出错,这进一步强调了引入自然语言反馈来指导模型学习的重要性。

实验发现,在两个数据集上,累积错误(即一个步骤的错误很可能直接导致所有后续步骤的错误)在所有错误类型中占到的比例最高。

不同数据集上的错误分布也有不同的特点,在相对简单的GSM8K上,计算错误更多;在更困难的MATH数据集上,逻辑错误更多。

通过构建元评估集,研究团队评估了验证器在没有生成器影响下,准确判断最终答案的能力。

结果显示,Math-Minos在训练过程中的元评估一致优于传统的ORM,并且展现出更快的收敛速度和更精准的判断能力。

同时实验结果也表明,Math-Minos具有很强的Scale Up的潜力。

总之,Math-Minos的开发不仅提升了数学验证器的性能,更为自然语言处理领域提供了一种新的训练范式。

研究团队希望这项工作能够启发未来研究,探索自然语言反馈与分类式验证器的潜在整合,推动大型语言模型在复杂推理任务上的能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1955年老红军被免职返乡,起初不准备给他授衔,三位老总联名反对

1955年老红军被免职返乡,起初不准备给他授衔,三位老总联名反对

云霄纪史观
2026-05-28 00:23:09
觉得生活没意思,这是抑郁前兆吗?

觉得生活没意思,这是抑郁前兆吗?

极目新闻
2026-05-27 17:13:51
央视领衔!三大频道聚焦蓉城迎战泰山,CCTV5直播铜梁龙对阵国安

央视领衔!三大频道聚焦蓉城迎战泰山,CCTV5直播铜梁龙对阵国安

实事球是
2026-05-28 17:06:13
合作争议后:苏芒启动维权,广汽启境声明称非代言人、停止相关传播

合作争议后:苏芒启动维权,广汽启境声明称非代言人、停止相关传播

超角度
2026-05-28 13:25:29
最后一刻,赖清德决定签字,国台办严肃定性,郑丽文说出大实话

最后一刻,赖清德决定签字,国台办严肃定性,郑丽文说出大实话

呼呼历史论
2026-05-28 14:04:34
振奋!中国“辽宁”号航母迎来第3次改装,歼-35隐身舰载机上舰!

振奋!中国“辽宁”号航母迎来第3次改装,歼-35隐身舰载机上舰!

军武次位面
2026-05-28 15:51:04
朱芳雨表态:不惜一切办法争取哈登加盟 助力广东与CBA全面升级

朱芳雨表态:不惜一切办法争取哈登加盟 助力广东与CBA全面升级

全球财经网
2026-05-28 11:44:18
体重不下掉的原因之一:蛋白吃得太少

体重不下掉的原因之一:蛋白吃得太少

增肌减脂
2026-05-28 12:01:32
突然,全线跳水,超16.7万人爆仓!

突然,全线跳水,超16.7万人爆仓!

新浪财经
2026-05-28 14:50:32
用魔法打败魔法后,绝对公平的判罚下,尼克斯真能打爆雷霆

用魔法打败魔法后,绝对公平的判罚下,尼克斯真能打爆雷霆

兵哥篮球故事
2026-05-27 21:50:51
5月25日人社部正式发文!7月1日全国落地,在职、退休人员都受益

5月25日人社部正式发文!7月1日全国落地,在职、退休人员都受益

健身狂人
2026-05-28 00:20:39
五个女博士被投诉,北大紧急辟谣,迎来的却是嘲讽一片

五个女博士被投诉,北大紧急辟谣,迎来的却是嘲讽一片

平老师666
2026-05-27 22:35:40
洋葱立大功!医生发现:洋葱或对3种慢性病有好处!可以常吃

洋葱立大功!医生发现:洋葱或对3种慢性病有好处!可以常吃

芹姐说生活
2026-05-25 14:19:45
《家业》收官:骆文谦李祯喜提龙凤胎,李景东抢着带娃

《家业》收官:骆文谦李祯喜提龙凤胎,李景东抢着带娃

陈意小可爱
2026-05-28 13:01:17
税务局敢退9.63亿,国企敢要回来——双重致敬

税务局敢退9.63亿,国企敢要回来——双重致敬

虎说财税
2026-05-12 08:46:30
父亲走后姐姐们都不管继母,我把她接进门后,她给我一箱金条

父亲走后姐姐们都不管继母,我把她接进门后,她给我一箱金条

千秋文化
2026-05-11 20:32:07
基辅将被毁灭?俄军图95战轰千里南调,专家评估:大规模轰炸开始

基辅将被毁灭?俄军图95战轰千里南调,专家评估:大规模轰炸开始

史智文道
2026-05-28 14:34:30
大厦保安给楼前“老头乐”车胎放气 负责人:大厦门前禁停车 保安劝阻未果因生气给车胎放气

大厦保安给楼前“老头乐”车胎放气 负责人:大厦门前禁停车 保安劝阻未果因生气给车胎放气

闪电新闻
2026-05-28 14:46:10
《呼啸山庄》扎心真相:你爱过的那个人,本不完美,是你的爱为他镀了金身

《呼啸山庄》扎心真相:你爱过的那个人,本不完美,是你的爱为他镀了金身

心理观察局
2026-05-28 07:00:14
西方傻眼,本想搞垮俄罗斯经济,没想到中国出手,用黄金给俄续命

西方傻眼,本想搞垮俄罗斯经济,没想到中国出手,用黄金给俄续命

月亮的麦片
2026-04-24 12:06:29
2026-05-28 18:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
12699文章数 176471关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

黑车高速追尾半挂车致13死 河南车主在湖北上的牌照

头条要闻

黑车高速追尾半挂车致13死 河南车主在湖北上的牌照

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

新款吉利星愿6.18万起售 一镜到底寻找爆款密码

态度原创

房产
手机
数码
亲子
健康

房产要闻

突发重磅!三亚新机场公司正式成立!

手机要闻

2026年3000-4000元高颜值轻薄手机推荐:这几款网红机型不容错过

数码要闻

小米澎湃OS 3迎来更新:笔记录音机体验优化,相册新增专属水印

亲子要闻

快住手!!家长再生气,这三个地方都不能打!小心毁掉孩子的一生

专家教你辨认“正规外泌体”!

无障碍浏览 进入关怀版