网易首页 > 网易号 > 正文 申请入驻

过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%

0
分享至


新智元报道

编辑:LRS

【新智元导读】通过过程奖励模型(PRM)在每一步提供反馈,并使用过程优势验证器(PAV)来预测进展,从而优化基础策略,该方法在测试时搜索和在线强化学习中显示出比传统方法更高的准确性和计算效率,显著提升了解决复杂问题的能力。

在提升大型语言模型(LLM)在数学推理方面的能力时,一个常用的方法是训练一个奖励模型(reward model)或验证器(verifier),也可以利用强化学习在测试阶段(test-time)对所有解决方案进行重排序。

通常情况下,验证器的预测是整个推理过程的结果,即结果奖励模型(ORM,outcome reward models),但这种奖励信号过于稀疏,模型难以从中学习,并且搜索过程的效率也不高;理论上,通过细粒度的监督数据可以缓解这一问题。

在推理方面,先前有研究已经训练了过程奖励模型(PRMs,process reward models),在搜索的每一步或在强化学习期间分配中间奖励,不过PRM数据都来源于人工标注,不具备可扩展性。

虽然也有研究者训练PRMs来预测自动生成的标注,类似于强化学习中的价值函数,但到目前为止,自动化的PRMs与ORMs相比,性能仅仅提高了1-2%,引发了业界对该技术的质疑。

PRM可以用来执行搜索,或者作为密集奖励(dense rewards)来提升基础策略,所以问题的核心变成了:到底该「如何设计流程奖励」?

最近,Google Research、Google DeepMind和卡内基梅隆大学的研究人员联合发布了一篇论文,主要思路是,每一步的过程奖励都应该对整个过程进行度量:在采取该步骤「之前」和「之后」,模型在生成正确回复概率(likelihood)的变化程度,对应于强化学习中步骤级别优势(step-level advantages)的概念;最重要的是,该过程应该根据与基本策略(basic policy)不同的证明政策(prover policy)来度量。


论文链接:https://arxiv.org/pdf/2410.08146

研究人员从理论上描述了一组好的证明器,并用实验证明了,优化来自证明器的过程奖励可以改善测试时搜索和在线强化学习期间的探索,并且可以通过经验观察到,弱证明器策略可以显着改善更强的基础策略。

通过训练过程优势验证器 (PAV,process advantage verifiers) 来预测证明器的过程,结果表明,与 ORM 相比,针对 PAV 的测试时搜索准确率提升了8%,计算效率提升了1.5到5倍;使用PAV的密集奖励进行在线RL,实现了在样本效率上5-6倍的提升,比ORM的准确率提升了6%

定义过程奖励

为了解决前面提到的奖励不确定性,研究人员训练了带有自动标注的过程奖励模型(PRMs),以便在测试时搜索和在线强化学习(RL)期间,通过优化训练后的PRMs提供的密集奖励来提高基础策略的计算和样本效率。

为此,文中主要解决了两个问题:

1. 每一步的过程奖励应该度量(measure)什么?

2. 应该使用什么样的自动数据收集策略来训练预测PRMs?

传统的方法主要通过度量数学正确性或步骤的相关性来实现的,但这种监督信号是否能够最大程度地改进基础策略尚不清楚,例如策略可能需要生成重复的,在测试时搜索和RL期间不正确的步骤来探索和发现最终答案。

研究人员的关键想法是,衡量逐步骤过程奖励(在采取步骤之前和之后到达正确最终答案的可能性的变化),对于测试时的beam search和在线强化学习都是有效的。

强化那些不管是在正确或错误轨迹中出现都取得进展的步骤,可以在最初步骤中多样化可能答案的探索(exploration),在解决问题方法不明确时可以起到很重要的作用。

从形式上来讲,这种奖励对应于强化学习中的逐步骤优势( per-step advantages),经验表明,使用优势以及ORM奖励比常见的使用未来成功概率(future probabilities of success)或值来搜索和强化学习都表现得更好,主要是因为,在有限的计算和采样约束下,值主要「利用」(exploit)状态,而优势也「探索」(explore)对最终答案最有贡献的步骤。


在回答第二个问题时,研究人员首先注意到,在大多数步骤中,基础策略下的优势接近于0,因此对搜索或RL没有信息量。

此外,无论基础策略的强度如何,使用其自身的逐步骤优势作为RL中的过程奖励,会导致与仅使用结果奖励进行RL相同的基础策略更新(因为标准策略梯度算法已经计算了优势)。

因此,研究人员提出使用在不同的证明策略下通过滚动估计的优势作为过程奖励。


然后应该如何选择证明策略?

一个很自然的想法/猜测是使用一个非常强大的证明策略,但研究人员发现,在过于强大的证明策略下,模型可以从任意步骤中走向成功,无法区分出好和坏的步骤;而对于非常弱的证明策略来说,也有类似的结果。

在理论上,研究人员在文中将上述直觉给形式化为,与基础策略互补的策略即为好的证明器,能够充分对比基础策略生成的步骤优势,同时仍然生成与基础策略优势相关的步骤级优势的策略。

例如,对于对应于基础策略的Best-of-策略,经验发现,对应于>1的证明策略更能够改进基础策略;与直觉相反,互补证明策略的集合也包含了比基础策略更差的策略。

为了预测这些证明策略的优势,研究人员训练了密集的验证器,即过程优势验证器(PAV,process advantage verifiers),加速了RL和搜索的样本和计算效率;文中为训练PAV规定了实际的工作流程,并在一系列2B、9B和27B Gemma2模型上展示了有效性。


通过从证明策略中采样「种子」解决方案轨迹,以估计种子轨迹的每个前缀的值,并从同一策略中进行部分滚动(partial rollouts)来收集PAV训练数据,工作流程规定了种子和部分滚动的有利比例。

实证结果显示,对于相同的测试时计算预算,针对训练有素的PAV的beam search在准确性上比针对ORM重新排序完整轨迹高出>8%,计算效率提高了1.5-5倍。


PAV的密集奖励通过积极修剪解决方案的组合空间,并专注于多样化的可能序列集,提高了搜索期间步骤级探索的效率。

此外,文中首次展示了使用PAV作为强化学习中的密集奖励,与仅使用结果奖励相比,数据效率提高了6倍;使用PAV训练的基础策略也实现了8倍更好的Pass @性能(在次尝试中采样正确解决方案的概率),从而为任何测试时重新排序器的性能提供了更高的上限。

最后,使用PAV进行强化学习,可以发现SFT策略在非常大的预算下也无法应对的难题解决方案。

参考资料:

https://arxiv.org/abs/2410.08146

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
汪小菲马筱梅喊话王石:借你的豪车开几天,田朴珺的回复让人笑翻

汪小菲马筱梅喊话王石:借你的豪车开几天,田朴珺的回复让人笑翻

娱最资讯
2024-11-16 01:02:53
10几万元只剩472元!广东一爸爸悔哭:希望引起重视

10几万元只剩472元!广东一爸爸悔哭:希望引起重视

佛山电视台小强热线
2024-11-15 20:54:21
泰森打趣下场或许和罗根-保罗打,后者回应:我会杀了你迈克

泰森打趣下场或许和罗根-保罗打,后者回应:我会杀了你迈克

直播吧
2024-11-16 14:35:16
金鸡奖表彰,雷佳音肿了,王一博变帅了,范丞丞能不能注意下仪态

金鸡奖表彰,雷佳音肿了,王一博变帅了,范丞丞能不能注意下仪态

八卦南风
2024-11-15 17:48:04
绷不住了!李子柒视频里满地柚子被质疑是摆拍,南方网友坐不住了

绷不住了!李子柒视频里满地柚子被质疑是摆拍,南方网友坐不住了

圈里的甜橙子
2024-11-15 16:12:36
女演员都是做兼差?!有没有人专职拍?

女演员都是做兼差?!有没有人专职拍?

吃瓜党二号头目
2024-11-16 13:32:48
53集谍战剧来袭,多位影帝集结,不看太可惜

53集谍战剧来袭,多位影帝集结,不看太可惜

圈里的甜橙子
2024-11-16 11:06:17
下周A股重要看点:工信部放出大消息!利好2板块将快速纠错大涨!

下周A股重要看点:工信部放出大消息!利好2板块将快速纠错大涨!

阿伧说事
2024-11-16 09:56:05
理发师晓华回应收入:没赚到钱,现在给老表工资100,有钱再涨

理发师晓华回应收入:没赚到钱,现在给老表工资100,有钱再涨

行者聊官
2024-11-16 11:33:56
复出不到半年,刀郎又掉进了一个“怪圈”,韩红的担心恐成真!

复出不到半年,刀郎又掉进了一个“怪圈”,韩红的担心恐成真!

火之文
2024-11-15 15:29:54
35岁女子查出“砒霜”中毒!医生惊呆:吃它3年,肠子都黑了......

35岁女子查出“砒霜”中毒!医生惊呆:吃它3年,肠子都黑了......

鲁中晨报
2024-11-15 10:24:14
徐州新沂一女孩坠河,母亲和哥哥为救她双双溺亡?殡仪馆:收到一对母子遗体

徐州新沂一女孩坠河,母亲和哥哥为救她双双溺亡?殡仪馆:收到一对母子遗体

极目新闻
2024-11-15 23:55:19
突发!10座半导体厂项目被叫停

突发!10座半导体厂项目被叫停

半导体圈
2024-11-16 08:44:31
7位国际奥委会主席竞选人身份简析,你觉得谁当选的概率最大?

7位国际奥委会主席竞选人身份简析,你觉得谁当选的概率最大?

爱论历史
2024-11-15 09:05:02
中国曾两次废除春节,严令禁止庆祝,谁敢庆祝就抓谁!

中国曾两次废除春节,严令禁止庆祝,谁敢庆祝就抓谁!

何为惠
2024-11-16 06:30:17
学习是怎么突然开窍的?学霸们的分享直接了当!有点抽象但字字珠玑

学习是怎么突然开窍的?学霸们的分享直接了当!有点抽象但字字珠玑

滑稽斑马呀
2024-11-16 09:54:06
林志玲携子回国,粉嫩装扮嫩回姐姐,儿子长相秀气和她似复制粘贴

林志玲携子回国,粉嫩装扮嫩回姐姐,儿子长相秀气和她似复制粘贴

时髦范
2024-11-16 15:18:06
皇家马德里:安切洛蒂时代落幕,阿隆索2025年接任

皇家马德里:安切洛蒂时代落幕,阿隆索2025年接任

油泼辣不辣
2024-11-15 17:20:35
中共中央批准:吴伟任上海市委常委

中共中央批准:吴伟任上海市委常委

新京报北京知道
2024-11-15 20:26:42
大S巅峰人脉全部押宝具俊晔,台媒爆料:20年积累全搭进去了

大S巅峰人脉全部押宝具俊晔,台媒爆料:20年积累全搭进去了

孤独的独角兽影视
2024-11-16 09:15:03
2024-11-16 16:20:49
新智元
新智元
AI产业主平台领航智能+时代
11751文章数 65674关注度
往期回顾 全部

科技要闻

马斯克双翼齐飞,SpaceX和xAI估值齐飙升

头条要闻

男子顺丰快递370克黄金到两地 均被"代签收"损失20万

头条要闻

男子顺丰快递370克黄金到两地 均被"代签收"损失20万

体育要闻

39岁C罗1战2神作:倒挂金钩+梅开二度

娱乐要闻

麦学后亮学也来了!李行亮人设崩塌

财经要闻

中铁七局致歉!对5人就地免职

汽车要闻

配易四方+云辇-Z系统 仰望U7于广州车展亮相

态度原创

教育
本地
游戏
时尚
公开课

教育要闻

快别这样批评孩子了,小心击碎他一生的信心和底气

本地新闻

重庆记忆|山城特色“过山车”上天入地穿花海

特别好评《永恒天空》明年登陆PS5 试玩现已上线

女人过了四十岁穿衣要大气,这些日常穿搭好美,时尚优雅又有气质

公开课

一块玻璃,如何改变人类世界?

无障碍浏览 进入关怀版