网易首页 > 网易号 > 正文 申请入驻

清华团队深度实证:RL 真能让大模型进化吗?能力边界仍被基座“锁死”!

0
分享至

大数据文摘出品

强化学习(RL)真的能让大模型获得超越基础模型的新推理能力吗?

近日,清华大学LeapLab团队联合上海交大,发布了一篇题为《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新论文,给最近火热的RLVR(带可验证奖励的强化学习)又“泼了一盆冷水”。

论文地址:https://arxiv.org/pdf/2504.13837

论文标题翻译过来是:强化学习(RL)真的能让大模型获得推理能力上的跃迁吗?

论文结论是:RLVR提升的,其实只是采样效率,而不是让模型学会了真正全新的推理能力。

换句话说:RLVR只是把基础模型本来就会的东西,采样采得更有效率了。

这份研究直接打破了AI圈子里的“先验知识”,大家都觉得RLVR是让大模型变聪明的“加速器”,特别是在数学、代码等需要推理的任务上。

比如OpenAI的o1、DeepSeek-R1、Kimi-1.5,都是靠RLVR后处理,成绩一骑绝尘。 原理很简单: 先有个基础大模型→ 用RLVR强化一下→ 通过自动判分(比如答案对不对、代码测不测得过)给奖励。

理论上,它能自我提升,学到以前没见过的新解题套路。于是, 这几年,大家都在说,RLVR能让大模型“自我进化”,推理能力突破天花板。

清华团队的“灵魂拷问”:RLVR,真能越过基座吗?

清华团队这篇论文,直接抛出了“灵魂三问”:

  • RLVR强化训练,究竟有没有让大模型获得“超越基座模型”的全新推理能力?

  • 模型的推理边界到底被RLVR拓宽了吗?还是只是换了一种方式采样?

  • 我们是否过于高估了RLVR的“自我进化”魔力?

对于上述三个问题,作者用pass@k作为研究方法的核心。因为传统的模型评测,大多用“平均准确率”或“单次采样成功率”来衡量模型能否解题。但作者敏锐地意识到,这种评估方式其实低估”了模型的潜力。 原因是: 有些难题,模型可能前几次都答错,但多采样几次,或许就能“撞”出正确答案。

于是,论文采用了 pass@k 这个指标: 对于每道题,采样k次,只要有一次答对,就算成功。 k越大,越能“榨干”模型内在的推理极限。

核心逻辑是:如果RLVR真能带来新能力,那在k再大时,它也应该比基座模型更能解出难题。

实验结果有点颠覆大家认知——

RLVR训练的模型,在k小的时候表现更好,但k大了以后,基础模型能超过它!

也就是: RLVR训练让模型更高效采样出正确答案,但没有带来全新的推理能力,能力边界始终被基座模型“锁死”。

案例1:数学推理

以AIME24数学竞赛题为例,RLVR模型一开始比基座模型高出30%的准确率,但多采样后,基座模型最终能解出更多题目,RLVR的“能力天花板”反而更低。


案例2:代码生成

在LiveCodeBench等编程基准上,RLVR模型单采样表现亮眼,但当k采样数提升到128时,基座模型解题覆盖率反超RLVR。


案例3:视觉推理

多模态视觉推理同样复现上述现象——RLVR提升了采样效率,却没让模型产生全新的多模态推理路径。

RLVR的“聪明”,其实是把基础模型会的东西,输出概率调高了,真正的新推理路径?并没有,基础模型多采样就能覆盖所有RLVR模型能做的题

甚至,RLVR还收窄了模型的探索能力——它会更集中在“能得分的套路”上,但反而失去一些“歪打正着”的能力,导致极限覆盖没基础模型广。

无论是代码生成(LiveCodeBench、HumanEval+),还是视觉推理(MathVista、MathVision),趋势都是一样:RLVR提升了单次成功率,但大采样下基础模型能覆盖更多难题。

为什么会这样?

清华的这篇论文认为有两点原因:

一是大模型的“先验”太强了。RLVR本质上是在基础模型原有输出分布里找高分的“套路”,不走新路;RL算法本身不适合探索超大动作空间(语言的组合爆炸),靠奖励信号很难跳出原有思路。

二是探索能力反而被抑制。RLVR让模型更“稳”,但也更“保守”,输出熵降低,探索新解法的能力变弱。

RLVR在大模型推理这件事上,和AlphaGo那种“纯RL自我进化”完全不是一回事。大模型的RLVR只是“采样分布微调”,不是“能力进化”。

怎么解决?

论文做了一个实验,把更强的模型的推理链条喂给小模型,小模型能真的学到新花样,推理上限突破原有格局。

所以,如果真想让模型能力更进一步,靠RLVR远远不够,得靠知识蒸馏“老师带学生”那一套。

即“让模型变聪明”的关键,或许在于“注入新知识”(如蒸馏),而不是单纯靠奖励强化。

或者探索“更强的探索范式”,比如结合RL和生成式探索、提升模型对“低概率创新路径”的容忍度等。

图源:清华大学LeapLab实验室官网

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒级计费,平均节省开支30%以上!

扫码了解详情☝

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
研究发现:体质好的人,一般有6个特征,能占4个,就很不错

研究发现:体质好的人,一般有6个特征,能占4个,就很不错

蜉蝣说
2026-05-19 21:58:27
生育率问题的罪魁祸首不是房价和经济 而是你手里拿着的这样东西

生育率问题的罪魁祸首不是房价和经济 而是你手里拿着的这样东西

新浪财经
2026-05-17 14:34:05
钱大妈5年闭店约500家,创始人冯冀生套现超亿元跑路

钱大妈5年闭店约500家,创始人冯冀生套现超亿元跑路

财观潮头
2026-05-19 20:42:43
安切洛蒂谈世界杯:五个夺冠热门,但没有球队是完美的

安切洛蒂谈世界杯:五个夺冠热门,但没有球队是完美的

懂球帝
2026-05-19 09:42:40
华为、腾讯、比亚迪等都等不及了!深圳高校2026集体“疯狂上新”

华为、腾讯、比亚迪等都等不及了!深圳高校2026集体“疯狂上新”

深圳梦
2026-05-19 21:53:00
姚晨紧急删文仅一天,不对劲一幕出现,为什么圈内好友无一人发声

姚晨紧急删文仅一天,不对劲一幕出现,为什么圈内好友无一人发声

青杉依旧啊啊
2026-05-20 02:54:17
挺进决赛!U17国足2比0完胜澳大利亚,将与日本队争冠!

挺进决赛!U17国足2比0完胜澳大利亚,将与日本队争冠!

足球报
2026-05-20 04:30:59
深挖 | 夏奇拉:世界杯的“音乐符号”,人生比情歌更跌宕

深挖 | 夏奇拉:世界杯的“音乐符号”,人生比情歌更跌宕

新民周刊
2026-05-19 09:10:27
上海交大樊同学要哭死:学校终止她的储才计划,取消她校内转专业

上海交大樊同学要哭死:学校终止她的储才计划,取消她校内转专业

江山挥笔
2026-05-19 22:16:34
深夜,“乌龙指”再现?!

深夜,“乌龙指”再现?!

证券时报
2026-05-19 23:34:05
好消息!上调至3.67%

好消息!上调至3.67%

幸福肥东
2026-05-19 14:56:40
谁干的?以色列核弹头储存基地发生强烈爆炸!特朗普推迟打击伊朗

谁干的?以色列核弹头储存基地发生强烈爆炸!特朗普推迟打击伊朗

影孖看世界
2026-05-19 21:47:46
全民拒接陌生来电,我们正在经历,一场无声的信任危机

全民拒接陌生来电,我们正在经历,一场无声的信任危机

天天热点见闻
2026-05-07 06:55:16
A股:中央两部门刚刚发声,释放一信号,明日将迎来更大的变盘

A股:中央两部门刚刚发声,释放一信号,明日将迎来更大的变盘

云鹏叙事
2026-05-20 00:00:05
还是忘不了!特朗普又晒检阅解放军仪仗队照片,还展示自己军装照

还是忘不了!特朗普又晒检阅解放军仪仗队照片,还展示自己军装照

阿龙聊军事
2026-05-17 21:08:17
热议海港胜成都:史上最弱海港做到了;成都主场失利是警醒

热议海港胜成都:史上最弱海港做到了;成都主场失利是警醒

懂球帝
2026-05-19 23:11:08
蔡卓妍:全部都是假的

蔡卓妍:全部都是假的

最江阴
2026-05-19 15:05:17
郎朗真有福!吉娜戛纳红毯开叉到大腿根,生图曝光网友吵翻天!

郎朗真有福!吉娜戛纳红毯开叉到大腿根,生图曝光网友吵翻天!

动物奇奇怪怪
2026-05-20 04:29:55
果然!是华人而不是中国人统治了芯片,真够扎心的…

果然!是华人而不是中国人统治了芯片,真够扎心的…

慧翔百科
2026-05-19 08:34:16
怒增5700亿!大行消费贷“杀疯了”

怒增5700亿!大行消费贷“杀疯了”

柒财经
2026-05-19 23:19:43
2026-05-20 05:19:00
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6862文章数 94545关注度
往期回顾 全部

科技要闻

马斯克败诉,法院判他起诉OpenAI太晚了

头条要闻

媒体:特朗普为何抛涉台"四不"说法 鲁比奥解释清楚了

头条要闻

媒体:特朗普为何抛涉台"四不"说法 鲁比奥解释清楚了

体育要闻

文班亚马:没拿到MVP,就证明自己是MVP

娱乐要闻

姚晨删博难平众怒,为什么她还能蹦哒

财经要闻

洁丽雅硬刚豪门内斗传言

汽车要闻

焕新极氪009上市41.38万起 齐家版让MPV回归家庭

态度原创

数码
健康
家居
房产
教育

数码要闻

谷歌推出Gemini 3.5系列模型

专家揭秘干细胞回输的安全风险

家居要闻

观山隐秀 心灵沉淀

房产要闻

7516元/㎡,161套一次全甩!海口住宅最低价出现了!

教育要闻

中考数学,-0的倒数是多少?

无障碍浏览 进入关怀版