网易首页 > 网易号 > 正文 申请入驻

清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

0
分享至



赵俭,北京邮电大学本科三年级,研究方向为大语言模型。刘润泽,清华大学硕士二年级,师从李秀教授,研究方向为大语言模型与强化学习,特别关注大模型推理能力增强与测试时间扩展,在 NeurIPS、ICML、ICLR、AAAI 等顶级学术会议发表多篇论文,个人主页:ryanliu112.github.io。

随着 OpenAI o1 和 DeepSeek R1 的爆火,大语言模型(LLM)的推理能力增强和测试时扩展(TTS)受到广泛关注。然而,在复杂推理问题中,如何精准评估模型每一步回答的质量,仍然是一个亟待解决的难题。传统的过程奖励模型(PRM)虽能验证推理步骤,但受限于标量评分机制,难以捕捉深层逻辑错误,且其判别式建模方式限制了测试时的拓展能力。

那么,是否有办法通过测试时拓展提升过程奖励模型的过程监督推理能力呢?

为此,清华大学联合上海 AI Lab 提出生成式过程奖励模型 ——GenPRM,将生成式思维链推理(CoT)与代码验证相结合,并引入测试时拓展机制,为过程监督推理提供了新思路。与 DeepSeek 近期发布的逐点生成奖励模型(GRM)类似,GenPRM 也通过生成式建模和测试时扩展增强奖励模型的推理能力,但 GenPRM 更专注于过程奖励模型,弥补了 GRM 在过程监督方面的不足。



论文标题:GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

论文链接:http://arxiv.org/abs/2504.00891

项目链接:https://ryanliu112.github.io/GenPRM

GitHub:https://github.com/RyanLiu112/GenPRM

HuggingFace:https://huggingface.co/GenPRM

在 ProcessBench 等数学推理基准的测试中,GenPRM 展现出惊人实力:仅 1.5B 参数的模型通过测试时扩展超越 GPT-4o,而 7B 参数版本更是击败 72B 参数的 Qwen2.5-Math-PRM-72B,同时表现出强大的步骤级批评能力。



GenPRM:从评分到推理,再到测试时扩展

现有过程奖励模型依赖分类器式的标量评分,这种 “黑箱” 机制导致两个核心问题:一是无法解释错误根源,仅能判断步骤 “对错”,却无法解释 “为何错”,二是无法通过增加模型测试时间计算资源提升判断精度。

生成式过程奖励模型

为了突破这些瓶颈,GenPRM 引入生成式设计,彻底革新过程监督范式:

思维链推理:GenPRM 模拟人类解题时的逻辑推导,对每一步推理进行自然语言分析,提供透明、可解释的步骤评估。

代码验证:为确保推理的可靠性,GenPRM 还会生成并执行对应数学运算的 Python 代码,将文字推导与实际计算结果交叉验证。例如,在求解三角函数表达式时,模型先分析角度转换的合理性,再通过代码计算具体数值,避免 “符号推导正确但计算失误” 的情况。



其奖励推理过程可以表示为:



其中 s_t 为当前状态,a_t 为当前步骤,v_1:t−1 和 f_1:t-1 分别为之前步骤的推理过程和代码执行反馈,v_t 和 f_t 为当前步骤的推理与反馈。这种 “先解释、再验证” 的机制不仅能判断对错,还能提供步骤级别的批评改进建议和严谨准确的反馈,大幅提升了过程监督的深度和实用性。

测试时扩展

在推理阶段,GenPRM 通过并行采样 N 条推理路径,综合多条路径的奖励值并取平均,得到最终奖励:



这种策略充分利用额外计算资源,进一步提升评估精度,使小模型也能在复杂任务中表现出色。

数据高效:23K 样本背后的合成秘密

GenPRM 的另一个亮点是仅使用 23K 训练样本就取得了优异的性能,远少于许多模型动辄数十万级的数据量(如 PRM800K 需 80 万人工标注),其高效性源于独特的数据合成方法,结合相对进步估计(RPE)和代码验证,生成高质量的过程监督数据。



通过相对进步估计改进硬估计

传统过程奖励模型通过蒙特卡罗(MC)分数进行硬估计,研究者观察到尽管许多步骤的 MC 分数大于 0,但这些步骤是却存在错误。RPE 通过比较当前状态和上一状态的 MC 分数,用 “进步幅度” 评估每步质量,比传统硬标签更准确。其形式化如下:



其中,MC (s_t, a_t) 表示当前步骤的蒙特卡罗分数,MC (s_t) 表示上一步骤的蒙特卡罗分数。若进步幅度低于阈值(ϵ=0.8),则判定步骤无效;若首步错误(MC 为 0),后续步骤分数归零。这种方法显著提升标签准确性,避免了硬估计的误判。

代码验证驱动的数据合成

研究者利用 QwQ-32B 模型合成 CoT 和代码验证推理数据,通过在 Python 环境中真实执行代码重复检验 CoT 推理过程。使用共识过滤(过滤率 51%),保留高质量过程监督数据,最终得到 23K 训练数据集。

测试时扩展:小模型的逆袭

在 ProcessBench 过程监督基准测试中,GenPRM 展现出显著优势:

仅用 23K 训练数据的 1.5B GenPRM,通过多数投票(Maj@8)的测试时计算扩展策略,其 F1 分数超越 GPT-4o;

7B 版本的 GenPRM 以 80.5% 的 F1 分数一举超过 72B 参数的 Qwen2.5-Math-PRM-72B。

这一结果证明,测试时扩展能有效放大过程奖励模型的能力,使小模型实现性能飞跃。



此外,GenPRM 同样适用于策略模型测试时扩展。通过 Best-of-N 实验,GenPRM-7B 展现出相比于基线方法更加优异的筛选能力,并可通过测试时扩展进一步增强过程监督能力。



从验证器到批评者:过程奖励模型新范式

GenPRM 不仅能当 “裁判”,作为验证器(Verifier)筛选答案,还能当 “教练”,作为步骤级别的批评模型(Critic)指导策略模型迭代优化原始回答。实验表明,GenPRM 通过 3 轮反馈将策略模型的回答准确率从 45.7% 提升至 51.5%,性能提升达到基线方法的 3.4 倍。



这种 “生成 - 批评 - 反思” 的闭环,验证了 GenPRM 不仅可以作为验证器验证答案的准确性,还可以作为批评者,为模型完善自身输出提供逐步关键指导,为大语言模型的自我改进提供了可解释的技术路径。

研究者已开源代码、模型及 23K 训练数据集。该工作为大语言模型的可解释过程监督提供了新思路,未来可扩展至代码生成、多模态推理等领域。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
尽力局,威少替补出场24分钟,11中5&三分6中3取14分4板

尽力局,威少替补出场24分钟,11中5&三分6中3取14分4板

懂球帝
2025-04-22 13:16:23
我退休金5千存款60万,可血的教训告诉我,千万不要想着去续前缘

我退休金5千存款60万,可血的教训告诉我,千万不要想着去续前缘

天罡密录局
2025-04-11 21:40:01
好无聊的剧,秦昊也救不了

好无聊的剧,秦昊也救不了

小片片说大片
2025-04-22 18:16:46
44岁李小璐在香港吃大排档,喝到双颊通红,穿蕾丝上衣身材很丰满

44岁李小璐在香港吃大排档,喝到双颊通红,穿蕾丝上衣身材很丰满

西瓜爱娱娱
2025-04-23 10:21:50
中国一旦进入战争,这些数字告诉你,只有一个结论:缴械投降

中国一旦进入战争,这些数字告诉你,只有一个结论:缴械投降

青途历史
2025-04-21 20:54:17
北京理工大学再通报,副院长宫琳被开除,男学生常旭强如何处理?

北京理工大学再通报,副院长宫琳被开除,男学生常旭强如何处理?

风云观察者
2025-04-20 22:36:41
十番棋伤感情,李世石和古力经常在一起喝酒,后来少了很多

十番棋伤感情,李世石和古力经常在一起喝酒,后来少了很多

月满大江流
2025-04-23 11:00:26
“第一枪”已打响!4艘军艇全部被击沉:80名陆战官兵全军覆没?

“第一枪”已打响!4艘军艇全部被击沉:80名陆战官兵全军覆没?

星辰故事屋
2025-04-21 17:51:18
爷爷把5套安置房全给叔叔,父亲没说话,等爷爷70大寿时众人傻眼

爷爷把5套安置房全给叔叔,父亲没说话,等爷爷70大寿时众人傻眼

青青会讲故事
2025-04-21 14:09:37
永生是恩赐还是一种酷刑?网友掏心窝子回答:引起万千共鸣

永生是恩赐还是一种酷刑?网友掏心窝子回答:引起万千共鸣

墙头草
2025-04-22 11:21:17
我爸和小三一起45年,我妈没闹,在他67岁生日当天绝地反击

我爸和小三一起45年,我妈没闹,在他67岁生日当天绝地反击

如烟若梦
2025-04-21 14:37:31
继德国后,另一个猛兽也要出笼了,日本增加防卫预算,达GDP1.8%

继德国后,另一个猛兽也要出笼了,日本增加防卫预算,达GDP1.8%

允华说
2025-04-22 17:49:18
徐正源曾表态:愿意执教中国队,就怕国足不愿意用韩国教练!

徐正源曾表态:愿意执教中国队,就怕国足不愿意用韩国教练!

邱泽云
2025-04-22 22:22:36
16秒2次成功挑战!兰德尔防守里夫斯再被吹犯规&芬奇再次挑战成功

16秒2次成功挑战!兰德尔防守里夫斯再被吹犯规&芬奇再次挑战成功

直播吧
2025-04-23 12:08:03
“空腹血糖6.1到底算不算病?”:关于糖尿病前期的4个真相

“空腹血糖6.1到底算不算病?”:关于糖尿病前期的4个真相

健康榨知机
2025-04-21 22:03:43
官宣,刘国梁辞职,乒协新掌门上任,47岁,级别高,马龙当副手

官宣,刘国梁辞职,乒协新掌门上任,47岁,级别高,马龙当副手

东球弟
2025-04-23 10:05:39
上海男篮外援只留下布莱德索,卢伟直接说出原因,原来如此

上海男篮外援只留下布莱德索,卢伟直接说出原因,原来如此

大昆说台球
2025-04-23 07:15:28
小卡登全美第1热搜:创7纪录被赞重返巅峰 船记直言34岁不可思议

小卡登全美第1热搜:创7纪录被赞重返巅峰 船记直言34岁不可思议

颜小白的篮球梦
2025-04-22 13:21:23
人民币是怎么了?

人民币是怎么了?

六爷阿旦
2025-04-22 17:47:35
广电总局:超高清插入式微型机顶盒千万级规模部署正式启动

广电总局:超高清插入式微型机顶盒千万级规模部署正式启动

南方都市报
2025-04-22 22:14:17
2025-04-23 12:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
10390文章数 142296关注度
往期回顾 全部

科技要闻

马斯克:中国用户对FSD"最为苛刻"

头条要闻

董明珠的接班人选出来了:还是董明珠 赞成率100%

体育要闻

金牌和金子,刘国梁改变国乒的这些年

娱乐要闻

周润发、梁朝伟为杜琪峰庆祝70岁生日

财经要闻

宜宾银行与五粮液集团频繁关联交易

汽车要闻

AUDI品牌首款量产车 奥迪E5 Sportback首发亮相

态度原创

亲子
家居
房产
游戏
旅游

亲子要闻

“拒绝上学门诊”一号难求的警示

家居要闻

开阔空间 家居轻智能

房产要闻

60+楼盘狂拼特价,海口最新房价曝光!

邂逅蒂法学姐? 《FF7EC》愚人节校园企划实装

旅游要闻

热闻|清明假期将至,热门目的地有哪些?