网易首页 > 网易号 > 正文 申请入驻

DeepSeek R2来了?全新推理时Scaling论文联手清华震撼发布!

0
分享至

新智元报道

编辑:Aeneas 犀牛

【新智元导读】DeepSeek新论文来了!在清华研究者共同发布的研究中,他们发现了奖励模型推理时Scaling的全新方法。

DeepSeek R2,果然近了。

最近,DeepSeek和清华的研究者发表的这篇论文,探讨了奖励模型的推理时Scaling方法。

论文地址:

https://arxiv.org/abs/2504.02495

现在,强化学习(RL)已广泛应用于LLM的大规模后训练阶段。

通过RL激励LLMs的推理能力表明,采用合适的学习方法,就有望实现有效的推理时可扩展性。

然而,RL面临的一个关键挑战,就是在可验证问题或人工规则之外的多种领域中,为LLMs获得准确的奖励信号。

是否有可能通过增加推理计算资源,来提升通用查询场景下奖励建模(RM)的能力,即通用RM在推理阶段的可扩展性呢?

DeepSeek和清华的研究者发现,在RM方法上采用点式生成式奖励建模(Pointwise Generative Reward Modeling, GRM),就能提升模型对不同输入类型的灵活适应能力,并具备推理阶段可扩展的潜力。

为此,他们提出一种自我原则点评调优(Self-Principled Critique Tuning, SPCT)的学习方法。

通过在线RL训练促进GRM生成具备可扩展奖励能力的行为,即能够自适应生成评判原则并准确生成点评内容,从而得到DeepSeek-GRM模型

他们提出了DeepSeek-GRM-27B,它是基于Gemma-2-27B经过SPCT后训练的。

可以发现,SPCT显著提高了GRM的质量和可扩展性,在多个综合RM基准测试中优于现有方法和模型。

研究者还比较了DeepSeek-GRM-27B与671B的更大模型的推理时间扩展性能,发现它在模型大小上的训练时间扩展性能更好。

另外,他们还引入一个元奖励模型(meta RM)来引导投票过程,以提升扩展性能。

总体来说,研究者的三个贡献如下。

1.提出了一种新方法——自我原则点评调优(SPCT),用于推动通用奖励建模在推理阶段实现有效的可扩展性,最终构建出DeepSeek-GRM系列模型。同时引入了元奖励模型(meta RM),进一步提升推理扩展性能。

2.SPCT显著提升了GRM在奖励质量和推理扩展性能方面的表现,超过了现有方法及多个强劲的公开模型。

3.将SPCT的训练流程应用于更大规模的LLM,并发现相比于训练阶段扩大模型参数量,推理阶段的扩展策略在性能上更具优势。

SPCT

受到初步实验结果的启发,研究者为点式生成式奖励模型(pointwise GRM)开发了一种新颖的方法,使其能够学习生成具有适应性和高质量的原则,以有效指导点评内容的生成。

这一方法被称为自我原则点评调优(Self-Principled Critique Tuning,SPCT)

如图3所示,SPCT包括两个阶段。

1.拒绝式微调(rejective fine-tuning)作为冷启动阶段

2.基于规则的在线强化学习(rule-based online RL),通过提升生成的原则和点评内容来强化通用奖励的生成过程。

另外,SPCT还可以促进GRM在推理阶段的可扩展行为。


将「原则」从理解转向生成

研究者发现,适当的原则可以在一定标准下引导奖励生成,这对于生成高质量奖励至关重要。

然而,在大规模通用奖励建模中,如何有效生成这些原则仍是一个挑战。

为此,他们提出将「原则」从一种理解过程解耦出来,转变为奖励生成的一部分,也就是说,不再将原则视为预处理步骤,而是纳入奖励生成流程中。

形式化地说,当原则是预定义时,原则可用于引导奖励生成。

研究者让GRM自行生成原则,并基于这些原则生成点评内容,形式化表达如下:

其中,p_θ是用于生成原则的函数,由参数θ表示,且与奖励生成函数r_θ共享同一个模型架构。

这一转变使原则能够根据输入问题及其回答内容进行动态生成,从而使奖励生成过程更加自适应。

此外,通过对GRM进行后训练,可进一步提升所生成原则与对应点评内容的质量与细致程度。

当GRM能够在大规模条件下生成多样化、高质量的原则时,其输出的奖励将更加合理且具备更高的细粒度,而这一能力正是推理阶段可扩展性的关键所在。


基于规则的强化学习

为了同时优化GRM中的原则点评内容的生成,研究者提出了SPCT方法,它结合了拒绝式微调(rejective fine-tuning)与基于规则的强化学习(rule-based RL)

其中,拒绝式微调作为冷启动阶段。

拒绝式微调(Rejective Fine-Tuning,冷启动)

这一阶段的核心思想是让GRM适应不同输入类型,并以正确的格式生成原则与点评内容。

与以往工作混合使用单个、成对和多个回答的RM数据并使用不同格式不同,研究者采用了点式GRM(pointwise GRM),以在相同格式下灵活地对任意数量的回答进行奖励生成。

在数据构建方面,除了通用指令数据外,研究者还从具有不同回答数量的RM数据中采样预训练GRM在给定查询与回答下的轨迹。

对于每个查询及其对应的回答,研究者执行了N_RFT次采样

他们统一了拒绝策略:若模型预测的奖励与真实奖励不一致(错误),或该组查询与回答在所有N_RFT次采样中全部预测正确(太简单),则拒绝该轨迹。

形式化地,令r_i表示第i个回答y_i对查询x的真实奖励,预测得到的点式奖励

被认为是正确的,当且仅当:

该条件保证真实奖励中只有一个最大值。

然而,正如以往研究所指出的,预训练的GRM在有限采样次数下,往往难以为部分查询及其回答生成正确的奖励。

因此,研究者引入了提示式采样(hinted sampling):将

作为提示,附加到GRM的提示语中,以期提高预测奖励与真实奖励的一致性。

可以发现,与之前的研究不同,提示采样的轨迹在某些情况下会捷径式简化点评生成,特别是在推理任务中。

这表明:在线强化学习对于GRM仍是必要的,并具有潜在优势。

基于规则的强化学习

在SPCT的第二阶段,研究者使用基于规则的在线强化学习对GRM进一步微调。

具体而言,我们采用了GRPO的原始设定,并使用基于规则的结果奖励(rule-based outcome rewards)

在rollout过程中,GRM根据输入查询与回答生成原则与点评,然后提取预测奖励并通过准确性规则与真实奖励进行对比。

与DeepSeek-AI不同的是,研究者不再使用格式奖励,而是采用更高的KL惩罚系数,以确保输出格式正确并避免产生严重偏差。

形式化地,对于第i个输出o_i(给定查询x和回答

),其奖励定义为

其中,点式奖励

是从o_i中提取的。

该奖励函数鼓励GRM通过在线优化生成的原则与点评内容,正确地区分最优回答,从而提升推理阶段的可扩展性

此外,这种奖励信号可无缝对接任何偏好数据集与标注的LLM回答。

SPCT的推理时Scaling

为了进一步提升DeepSeek-GRM在生成通用奖励上的性能,研究团队探索了如何利用更多的推理计算,通过基于采样的策略来实现有效的推理时扩展。


通过生成奖励进行投票

逐点GRM(pointwise GRMs)投票过程被定义为将奖励求和:

因为S_(i,j)通常被设定在一个小的离散范围内(比如{1,...,10}),所以投票过程实际上将奖励空间扩大了k倍,让GRM能生成大量原则(principles),从而提升最终奖励的质量和细腻度。

直观来说,如果把每个原则看作一种判断视角的代表,那么更多的原则就能更准确地反映真实分布,从而带来扩展的有效性。

值得一提的是,为了避免位置偏差并增加多样性,研究人员在采样前会对回答进行随机打乱。


元奖励模型引导投票

DeepSeek-GRM的投票过程需要多次采样,但由于随机性或模型本身的局限性,生成的某些原则和评论可能会出现偏见或者质量不高。

因此,研究团队训练了一个元奖励模型(meta RM)来引导投票过程。

这个meta RM是一个逐点标量模型,训练目标是判断DeepSeek-GRM生成的原则和评论是否正确。

引导投票的实现很简单:meta RM为k个采样奖励输出元奖励(meta rewards),然后从这些奖励中选出前k_meta(k_meta ≤ k)个高质量的奖励进行最终投票,从而过滤掉低质量样本。

奖励模型结果

不同方法和模型在RM基准测试上的总体结果如表2所示。

结果显示,DeepSeek-GRM-27B在整体性能上超过了基线方法,并且与一些强大的公开RM(如Nemotron-4-340B-Reward和GPT-4o)表现相当。

如果通过推理时扩展(inference-time scaling),DeepSeek-GRM-27B还能进一步提升,达到最佳整体结果。

不同方法和模型在RM基准测试上的总体结果。下划线数字表示最佳性能,粗体数字表示基线方法和本文方法中的最佳性能,斜体字表示标量或半标量RM。对于meta RM指导的投票,k_meta = 1/2k


推理时扩展性

不同方法的推理时扩展结果如表3所示,整体趋势见图1。

研究人员发现,在最多8个样本的情况下,DeepSeek-GRM-27B的性能提升最高,超越了贪婪解码和采样结果。

随着推理计算量增加(最多32个样本),DeepSeek-GRM-27B展现出进一步提升性能的潜力。meta RM也在每个基准测试中证明了其过滤低质量轨迹的有效性。

总之,SPCT提升了GRM的推理时扩展性,而meta RM进一步增强了整体扩展性能。


消融研究

表4展示了所提SPCT不同组件的消融研究结果。

令人惊讶的是,即使没有使用拒绝采样的评论数据进行冷启动,经过在线强化学习(online RL)后,通用指令调整的GRM仍然显著提升(66.1 → 68.7)。

此外,非提示采样似乎比提示采样更重要,可能是因为提示采样轨迹中出现了捷径。这表明在线训练对GRM的重要性。

与之前研究一致,研究团队确认通用指令数据对GRM性能至关重要。他们发现,原则生成对DeepSeek-GRM-27B的贪婪解码和推理时扩展性能都至关重要。

在推理时扩展中,meta RM指导的投票在不同k_meta下表现出鲁棒性。


推理与训练成本扩展

研究团队进一步研究了DeepSeek-GRM-27B在不同规模LLM后训练下的推理时和训练时扩展性能。

模型在Reward Bench上测试,结果如图4所示。

他们发现,使用32个样本直接投票的DeepSeek-GRM-27B可以达到与671B MoE模型相当的性能,而meta RM指导的投票仅用8个样本就能取得最佳结果,证明了DeepSeek-GRM-27B在推理时扩展上的有效性,优于单纯扩大模型规模。

此外,他们用包含300个样本的降采样测试集测试了DeepSeek-R1,发现其性能甚至不如236B MoE RFT模型,这表明延长推理任务的思维链并不能显著提升通用RM的性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CBA焦点战今夜打响!12日19点30分,CCTV5直播表,四川拒14连败

CBA焦点战今夜打响!12日19点30分,CCTV5直播表,四川拒14连败

老吴说体育
2026-01-12 11:11:50
曝闫学晶儿子高考造假!大V列出3宗罪,教育局介入,果然还有猛料

曝闫学晶儿子高考造假!大V列出3宗罪,教育局介入,果然还有猛料

鲸探所长
2026-01-11 19:41:12
加时一分险胜,守住东部第四!巴恩斯31+6+7,马克西空砍38+4+5

加时一分险胜,守住东部第四!巴恩斯31+6+7,马克西空砍38+4+5

无术不学
2026-01-12 10:41:09
维尼修斯手握两家豪门邀约,与其留下不如换队重启

维尼修斯手握两家豪门邀约,与其留下不如换队重启

K唐伯虎
2026-01-11 08:51:06
事实证明,多读书就是有用!
你看看26岁女交警的采访就知道了。

事实证明,多读书就是有用! 你看看26岁女交警的采访就知道了。

忠于法纪
2026-01-05 21:28:48
A股午评:沪指半日涨0.75%,深证成指涨1.31%,AI语料、豆包大模型,文化传媒等概念走强

A股午评:沪指半日涨0.75%,深证成指涨1.31%,AI语料、豆包大模型,文化传媒等概念走强

界面新闻
2026-01-12 11:34:41
为什么美国抓走马杜罗后,委内瑞拉的股市反而暴涨50%

为什么美国抓走马杜罗后,委内瑞拉的股市反而暴涨50%

总在茶余后
2026-01-12 05:43:01
俄驻华大使馆高调庆祝《北京条约》夺取外东北(海参崴)160周年

俄驻华大使馆高调庆祝《北京条约》夺取外东北(海参崴)160周年

律法刑道
2025-12-30 08:34:47
最讨厌的演员排名,潘长江仅第五,闫学晶第二,第一毋庸置疑

最讨厌的演员排名,潘长江仅第五,闫学晶第二,第一毋庸置疑

林雁飞
2026-01-04 19:29:51
宇宙真的有轮回吗?庞加莱回归证明,一切都会重演无数次

宇宙真的有轮回吗?庞加莱回归证明,一切都会重演无数次

观察宇宙
2026-01-07 21:32:45
30岁男子哀牢山独行失踪,家属拒绝配合搜救,找到时救援队懵了

30岁男子哀牢山独行失踪,家属拒绝配合搜救,找到时救援队懵了

罪案洞察者
2025-10-22 10:16:41
一位独居老人倾诉:好心让失业的亲戚来做保姆,结果却害苦了自己

一位独居老人倾诉:好心让失业的亲戚来做保姆,结果却害苦了自己

人间百态大全
2026-01-04 06:40:03
肥肠再次成为关注对象!研究发现:常吃肥肠,身体会收获3大好处

肥肠再次成为关注对象!研究发现:常吃肥肠,身体会收获3大好处

全球军事记
2025-12-29 21:28:37
曼联水货该随阿莫林滚蛋!足总杯惨败布莱顿,他的表现堪称耻辱

曼联水货该随阿莫林滚蛋!足总杯惨败布莱顿,他的表现堪称耻辱

澜归序
2026-01-12 03:15:30
家族聚会,姑妈把我赶走,姑父领导看见我后,走到我面前向我问好

家族聚会,姑妈把我赶走,姑父领导看见我后,走到我面前向我问好

红豆讲堂
2025-11-23 09:30:09
合川千人杀猪后续:呆呆"闯大祸"了 人走之后深夜哭泣 后悔发文了

合川千人杀猪后续:呆呆"闯大祸"了 人走之后深夜哭泣 后悔发文了

鋭娱之乐
2026-01-12 08:25:42
生死战,同时开球!等差数列格局,U23国足争第1,央视或2场同播

生死战,同时开球!等差数列格局,U23国足争第1,央视或2场同播

实事球是
2026-01-12 08:58:50
溥仪在“伪满”的权力有多大?别被他装孙子的一面给骗了

溥仪在“伪满”的权力有多大?别被他装孙子的一面给骗了

掠影后有感
2026-01-09 11:08:09
不卖岛就开战?特朗普话音刚落,丹麦下放开火权,6国外援已就位

不卖岛就开战?特朗普话音刚落,丹麦下放开火权,6国外援已就位

博览历史
2026-01-08 19:23:13
五常已做选择!高市送中国4个字,石破茂倒戈:日本无道歉的必要

五常已做选择!高市送中国4个字,石破茂倒戈:日本无道歉的必要

知法而形
2026-01-12 11:21:55
2026-01-12 12:16:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14314文章数 66454关注度
往期回顾 全部

科技要闻

小米二手车价大跳水:SU7半年跌5万元

头条要闻

媒体:美国"不演了" 特朗普直白表态震惊世界

头条要闻

媒体:美国"不演了" 特朗普直白表态震惊世界

体育要闻

聪明的球员,不是教练教出来的

娱乐要闻

闫学晶:脱离群众太久 忘了自己的根

财经要闻

揭秘“稳赚不赔”的代工项目骗局

汽车要闻

"家轿之王"变帅了 东风日产全新轩逸量产下线

态度原创

旅游
数码
本地
艺术
公开课

旅游要闻

属马、姓马游客免费!2026全国景区免票福利汇总第二波!

数码要闻

Khadas公布Mind Go概念:笔记本、平板、带屏迷你主机三合一

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

艺术要闻

画完这组画,他抑郁了,后来自杀了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版