网易首页 > 网易号 > 正文 申请入驻

仅用 8 张显卡和一万块钱,清华团队用7B模型打败GPT-4o数学推理

0
分享至

作者 | OpenBMB 社区

OpenAI o1 和 o3 模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力,在基于模仿学习的 Scaling Law 逐渐受到质疑的今天,基于探索的强化学习有望带来新的 Scaling Law。

近日,清华大学 NLP 实验室联合上海 AI Lab,清华大学电子系及 OpenBMB 社区提出一种新的结合过程奖励的强化学习方法—— PRIME(Process Reinforcement through IMplicit REwards),采用 PRIME 方法,研究人员不依赖任何蒸馏数据和模仿学习,仅用 8 张 A100,花费一万块钱左右,不到 10 天时间,就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B 的 7B 模型 Eurus-2-7B-PRIME。

具体而言,研究人员利用 Qwen2.5-Math-7B-Base 作为基座模型,训练出了新模型 Eurus-2-7B-PRIME ,并在美国 IMO 选拔考试 AIME 2024 上的准确率达到 26.7%,大幅超越 GPT-4o,Llama3.1-70B 和 Qwen2.5-Math-7B-Instruct,且仅使用了 Qwen Math 数据的 1/10。其中,强化学习方法 PRIME 为模型带来了 16.7% 的绝对提升,远超已知的任何开源方案。



该项目一经开源就在海外 AI 社区爆火,短短几天 Github 取得 400+ star。

未来,基于 PRIME 方法和更强的基座模型有潜力训练出接近 OpenAI o1 的模型。


blog 链接:https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896f

GitHub 链接:https://github.com/PRIME-RL/PRIME

PRIME 方法介绍

长久以来,开源社区严重依赖数据驱动的模仿学习来增强模型推理能力,但这种方法的局限也显而易见——更强的推理能力需要更高质量的数据,但高质量数据总是稀缺,使得模仿和蒸馏难以持续。虽然 OpenAI o1 和 o3 的成功证明了强化学习有着更高的上限,但强化学习有着两个关键挑战:(1)如何获得精准且可扩展的密集奖励;(2)如何设计可以充分利用这些奖励的强化学习算法。

PRIME 算法从隐式过程奖励(implicit process reward)的思想出发解决这两个问题。隐式过程奖励模型可以仅在输出奖励模型(outcome reward model, ORM)的数据,即答案的最终对错上进行训练,而隐式地建模过程奖励,最终自动训练出一个过程奖励模型,这整个过程都有严格的理论保证。

详细推导见:https://huggingface.co/papers/2412.01981


基于隐式过程奖励模型的这种性质,研究人员指出将其应用于强化学习有三大优势:

  1. 过程奖励:隐式过程奖励模型能够为每个 token 提供价值估计,在提供过程奖励的同时无需训练额外的价值模型(value model)

  2. 可扩展性:隐式过程奖励模型只需结果标签即可在线更新。所以,我们可以结合策略模型采样与结果验证器来直接更新 PRM,有效缓解分布偏移与可扩展性问题。

  3. 简洁性:隐式过程奖励模型本质上就是一种语言模型。在实践中,研究人员发现可以直接用初始的策略模型初始化 PRM。

隐式过程奖励解决了 PRM 在大模型强化学习中怎么用,怎么训,怎么扩展的三大问题,甚至不需要训练额外的奖励模型就可以开始强化学习,易用性和可扩展性极佳。

具体的 PRIME 算法流程如下图所示,它是一种在线强化学习算法,能够将每个 token 的过程奖励无缝应用于强化学习流程中。


实验结果

研究人员详细比较了 PRIME 算法和基线方法

相比于仅用结果监督,PRIME 有着 2.5 倍的采样效率提升,在下游任务上也有着显著提升。



研究人员还验证了 PRM 在线更新的重要性,可以看到,在线的 PRM 更新要显著优于固定不更新的 PRM,这也证明了 PRIME 算法设计和合理性


此外,研究人员还额外收集数据,基于 Qwen2.5-Math-Instruct 训练了 SOTA 水平的 EurusPRM,能够在 Best-of-N 采样中达到开源领先水平


showcase 演示

Question (AIME 2024 试题,Claude-3.5-Sonnet 做错)


Answer


Question

Which number is larger? 9.11 or 9.9?

Answer


强化学习是连接已有智能体(大模型)和现实世界(世界模型,具身智能)的桥梁,以及将世界反馈内化为模型智能的路径,将在下一代人工智能的发展中起到重要作用。PRIME 算法创新性地将隐式过程奖励与强化学习结合,解决了大模型强化学习的奖励稀疏问题,有望推动大模型复杂推理能力的进一步提升。

该工作在海外AI社区受到了很大欢迎:


会议推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下,变革与机遇交织,挑战与突破共生。2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,以 “智能融合,引领未来” 为年度主题,汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。现在报名可以享受 8 折优惠,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
0比4惨败!输了9次!日本天才张本智和被拿捏,网友:低调些吧

0比4惨败!输了9次!日本天才张本智和被拿捏,网友:低调些吧

体坛知道分子
2025-01-08 06:10:03
绑架王星公司已找到!刚成立,老板是广东人,王星预计2天内回国

绑架王星公司已找到!刚成立,老板是广东人,王星预计2天内回国

飞花文史
2025-01-08 16:22:05
女儿对快百岁父亲说:爸,你活的日子太长了,我妈应该来把你带走

女儿对快百岁父亲说:爸,你活的日子太长了,我妈应该来把你带走

烙任情感
2025-01-08 18:38:48
“我只欺负中国人!”那个殴打、虐待、用烟头烫同胞的恶魔留学生出狱回国了!

“我只欺负中国人!”那个殴打、虐待、用烟头烫同胞的恶魔留学生出狱回国了!

一刻talks丨硬科技趣思想
2025-01-03 21:01:37
中共中央、国务院:加大设施建设和场地供给支持力度 大力发展价格可负担、质量有保障、运营可持续的普惠养老服务

中共中央、国务院:加大设施建设和场地供给支持力度 大力发展价格可负担、质量有保障、运营可持续的普惠养老服务

财联社
2025-01-07 18:22:33
终于知道中国为何密集展示新型武器了,看来情报得到了可靠消息

终于知道中国为何密集展示新型武器了,看来情报得到了可靠消息

穷游天下的阿等
2025-01-05 16:26:13
特斯拉新款Model Y曝光!专属中国市场加长,首推7座车型

特斯拉新款Model Y曝光!专属中国市场加长,首推7座车型

网上车市
2025-01-08 15:12:12
云南多地迎“2025年初雪”!昆明等地局部将有大雪暴雪……

云南多地迎“2025年初雪”!昆明等地局部将有大雪暴雪……

开屏新闻客户端
2025-01-08 17:47:46
警察连开5枪致老汉身亡,分局强调:开枪警察勇于担责!符合规定

警察连开5枪致老汉身亡,分局强调:开枪警察勇于担责!符合规定

警界君
2025-01-08 15:43:32
王曼昱安全问题被曝光:保镖护送脱身,3女子不停辱骂,全网炸锅

王曼昱安全问题被曝光:保镖护送脱身,3女子不停辱骂,全网炸锅

飞花文史
2025-01-07 10:04:02
别硬扛!今年的流感症状“相对较重”!上海医生建议:把口罩焊在嘴巴上!

别硬扛!今年的流感症状“相对较重”!上海医生建议:把口罩焊在嘴巴上!

新民晚报
2025-01-06 15:02:36
人到七,八十岁,你会发现最终能让你快乐幸福的就是这4点

人到七,八十岁,你会发现最终能让你快乐幸福的就是这4点

娱乐洞察点点
2025-01-06 22:26:55
24场18球11助❗电讯报独家:曼城正推动5000万镑签下马尔穆什

24场18球11助❗电讯报独家:曼城正推动5000万镑签下马尔穆什

直播吧
2025-01-07 20:08:12
绑架王星的嫌疑人已被抓!身份曝光是广东籍人,国内有多家公司

绑架王星的嫌疑人已被抓!身份曝光是广东籍人,国内有多家公司

吾爱纪实
2025-01-08 17:08:30
史诗级壮观!美国冲浪者成功骑上了浪高约33米的创纪录的巨大海浪

史诗级壮观!美国冲浪者成功骑上了浪高约33米的创纪录的巨大海浪

随波荡漾的漂流瓶
2025-01-07 16:58:30
命里有没有财,看指纹便知?中科院破解“斗”和“簸箕”的奥秘

命里有没有财,看指纹便知?中科院破解“斗”和“簸箕”的奥秘

森罗万象视频
2025-01-08 15:21:21
欧盟对中国西藏定日县地震遇难者表示哀悼

欧盟对中国西藏定日县地震遇难者表示哀悼

新京报
2025-01-08 07:50:05
山西疑似内讧!队友倒地没人扶,潘江怒批不团结,表示随时可下课

山西疑似内讧!队友倒地没人扶,潘江怒批不团结,表示随时可下课

南海浪花
2025-01-08 07:08:58
绝对传奇!32岁孙兴慜英超125球历史第18,能否冲击历史前10?

绝对传奇!32岁孙兴慜英超125球历史第18,能否冲击历史前10?

直播吧
2025-01-07 19:36:11
50岁拜仁传奇又火了:6块腹肌,身型如雕塑!顶级自律如C罗

50岁拜仁传奇又火了:6块腹肌,身型如雕塑!顶级自律如C罗

叶青足球世界
2025-01-07 20:37:54
2025-01-08 19:24:49
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
583文章数 43关注度
往期回顾 全部

科技要闻

李开复第一个讲了出来,不再追求 AGI

头条要闻

女子为哥哥"换婚"后遭丈夫打骂 将其毒杀潜逃27年落网

头条要闻

女子为哥哥"换婚"后遭丈夫打骂 将其毒杀潜逃27年落网

体育要闻

消失3年后,国乒冠军成为一名大学老师

娱乐要闻

星星女友传来好消息:已和星星见面

财经要闻

重要通知!以旧换新加力扩围

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

健康
游戏
时尚
教育
公开课

抑郁症患者称好的“乌托邦”宝地

《老滚4》重制版?曝Virtuos正开发虚幻5重制版游戏

中年妈妈,收下这份“大衣”的穿搭指南,优雅到老不是问题

教育要闻

“黄世仁看了都流泪”,校招岗位月薪5—8元,学生看后眼前一黑

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版