网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源推理大模型R1:纯强化学习实现接近OpenAI o1水平

0
分享至

自此前发布了 DeepSeek-V3 和 R1-Preview-Lite 引发全网关注之后,DeepSeek 又发布了一项重磅成果。

1 月 20 日,DeepSeek 发布了全新的开源推理大模型 DeepSeek-R1,在数学、编程和推理等多个任务上达到了与 OpenAI o1 相当的表现水平,同时将应用程序编程接口(API,Application Programming Interface)调用成本降低了 90-95%。

更重要的是,这一模型的实验性版本 DeepSeek-R1-Zero 证明了仅通过强化学习(RL,Reinforcement Learning),无监督式微调(SFT,Supervised Fine-Tun-ing),大模型也可以有强大的推理能力。

英伟达高级研究科学家 Jim Fan 评价道:“我们正生活在一个特殊的时代:一家非美国公司在真正践行着 OpenAI 最初的使命——开展真正开放的前沿研究,为所有人赋能。这看似不合常理,但最富戏剧性的往往最可能发生。DeepSeek-R1 不仅开源了大量模型,还公开了所有训练细节。

他们可能是首个展示出强化学习飞轮效应,并实现持续增长的开源项目。影响力的展现不一定要靠‘内部实现了 ASI’或‘草莓计划’这样神秘的名号,有时候直接公开原始算法和学习曲线同样可以产生深远影响。”

用 1/30 的价格比肩 OpenAI o1

性能评估结果显示,通过纯强化学习方法训练得到的 DeepSeek-R1-Zero 以及在此基础上改进的 DeepSeek-R1,在 2024 年 AIME(美国数学邀请赛)测试中分别取得了 71.0% 和 79.8% 的成绩,与 OpenAI o1 的 79.2% 水平相当。

在 MATH-500 基准测试中,DeepSeek-R1 更是以 97.3% 的成绩略微超越了 o1 的 96.4%。在编程领域,该模型在 Codeforces 平台上获得了 2029 的评分,超过了 96.3% 的人类程序员,与 o1-1217 的 2061 评分仅有小幅差距。

在通用知识评测方面,DeepSeek-R1 同样表现出色。在 MMLU(大规模多任务语言理解)测试中达到 90.8% 的准确率,虽然略低于 o1 的 91.8%,但显著优于其他开源模型。

在 MMLU-Pro 上取得 84.0% 的准确率,在 GPQA Diamond 测试中达到 71.5% 的通过率。在创意写作和问答任务上,模型在 AlpacaEval 2.0 中获得了 87.6% 的控长胜率,在 ArenaHard 评测中达到 92.3% 的胜率。

在 API 定价方面,DeepSeek 展现出极强的性价比优势。其 API 服务对输入 token 收取 0.55 美元/百万,输出 token 收取 2.19 美元/百万,而 OpenAI o1 的收费分别为 15 美元/百万和 60 美元/百万,价格差距接近 30 倍。

纯强化学习就能实现强大的推理能力

除了性能方面的出色,R1 的开发过程也具有多处重要创新,首先是纯强化学习训练策略的突破。

传统观点认为,必须先通过大量标注数据进行 SFT,才能让模型具备基础能力,之后才考虑使用 RL 进行能力提升。然而 DeepSeek 这项研究发现,大模型可以完全依靠强化学习获得强大的推理能力,无需任何监督式微调。

研究团队首先开发了实验性的 R1-Zero 版本。他们选择直接在 DeepSeek-V3-base 模型上应用强化学习,完全抛开了传统的监督式微调环节。这个大胆的尝试产生了惊人的效果:在完全没有人工标注数据的情况下,模型展现出了持续的自我进化能力。

以 AIME 2024 数学测试为例,模型的 pass@1 准确率从最初的 15.6% 开始,随着训练的深入不断提升。

每一轮强化学习都让模型变得更加智能,最终达到了 71.0% 的准确率,使用多数投票(majority voting)机制后更是提升至 86.7%,已经接近 o1-0912 的水平。

在这个过程中,研究人员观察到了一个有趣的现象:模型不仅在数字上有进步,更在行为模式上发生了质的飞跃。

它开始表现出类似人类的思维特征,会主动反思和验证自己的推理步骤。当发现当前的解题思路可能存在问题时,模型会停下来,重新审视之前的推理过程,然后尝试寻找新的解决方案。

这种行为完全是自发产生的,而不是通过人工设计实现的,研究人员将这一行为称之为模型的“顿悟时刻”(aha moment)。这表明模型可能已经具备了某种程度的“元认知”能力,能够对自身的思维过程进行监控和调整。

支撑这些突破的核心是团队开发的 GRPO(Group Relative Policy Optimization)算法框架。传统方法通常需要维护一个与主模型规模相当的 Critic 网络来估计状态值,这不仅增加了计算开销,还容易导致训练不稳定。而 GRPO 则另辟蹊径,移除了规模庞大的 Critic 网络,通过群组相对优势估计来优化策略网络。

当处理一个推理问题时,算法首先从当前策略 πθold 中采样多个输出 {o1, o2, ..., oG}。这些输出共同构成一个参考组,然后通过最大化以下目标来优化策略模型,其表达如下:

其中 Ai 表示输出 oi 的优势值,通过归一化组内奖励计算得到:

至于其奖励机制则包含三个互补的组件:评估输出正确性的准确性奖励、确保推理过程结构化的格式奖励,以及处理语言一致性的奖励信号。这三种奖励通过合理的权重组合,共同指导模型向着期望的方向演进。

例如,在数学问题中,准确性奖励来自答案的验证结果,而格式奖励则确保模型提供清晰的解题步骤。

训练模板则为整个学习过程提供了结构化的框架。它采用“思考-回答”的双阶段设计,要求模型首先在

标签中展示完整的推理过程,然后才能在

标签中给出最终答案。

这种设计不仅使模型的思维过程变得可追踪,还为奖励计算提供了明确的评估基准。无论是处理数学推理还是开放性问答,这个模板都展现出了良好的适应性。

这三个组成部分紧密配合,共同构建了一个有效的学习系统。通过 GRPO 框架的梯度估计,由奖励机制提供的清晰学习信号,以及训练模板确保的结构化输出,模型能够持续提升其推理能力,最终达到接近人类专家的水平。

冷启动下的强化学习

尽管 R1-Zero 在技术上取得了突破性进展,但它还存在一些问题,例如,DeepSeek-R1-Zero 在可读性差和语言混合方面存在局限。为了进一步提升模型性能,研究团队继续探索了 DeepSeek-R1,开发出一个完整的四阶段训练流程。

首先是冷启动阶段。团队收集了数千个高质量样本用于初步微调,这些样本来源广泛:一部分通过 few-shot 提示获取,包含详细的解题思路;另一部分来自 R1-Zero 的优质输出,经过人工筛选和标注;还有一部分是专门设计的复杂推理案例。这个阶段的关键是确保数据质量而不是数据量,为后续的强化学习奠定良好基础。

第二阶段是面向推理的强化学习。这个阶段继承了 R1-Zero 的训练框架,但做了重要改进。首先是引入了语言一致性奖励,这个设计源于一个实际问题:在多语言环境下,模型容易在推理过程中混用不同语言。通过计算目标语言单词的比例作为奖励信号,有效地解决了这个问题。

同时,团队对推理密集型任务进行了特别优化。在数学问题中,他们设计了基于规则的验证机制;在编程任务中,则使用自动化测试来评估代码质量。这些针对性的优化显著提升了模型在专业领域的表现。

第三阶段是拒绝采样与监督微调。这个阶段的创新之处在于使用已训练的 RL 模型来生成新的训练数据。团队采用了一个重要的筛选标准:只保留那些不仅答案正确,而且推理过程清晰的样本。这确保了数据的高质量,同时也保持了模型的推理能力。

在这个阶段,训练范围也扩展到了更广泛的领域,包括写作、问答、角色扮演等。这种扩展不是简单的任务堆积,而是经过精心设计的能力构建过程。团队发现,通用领域的训练能够反过来促进模型的推理能力,形成正向循环。

最后一个阶段是全场景强化学习。这个阶段的特点是将不同类型的奖励机制有机结合:对于数学、编程等结构化任务,使用基于规则的明确奖励;对于开放式问答、创意写作等主观任务,则采用基于模型的评估奖励。这种灵活的奖励机制使模型能够在保持推理能力的同时,提升通用任务的表现。

在整个训练过程中,团队还发现了一个重要现象:大模型通过强化学习获得的推理能力具有强大的可迁移性。他们使用 R1 生成的 80 万条训练数据对不同规模的模型进行知识蒸馏,结果令人意外。

最小的 Qwen-1.5B 模型在 AIME 上也达到了 28.9% 的准确率,这个成绩已经超过了一些大得多的基础模型。中等规模的 Qwen-7B 达到了 55.5% 的准确率,这意味着一个仅有 70 亿参数的模型就能解决相当复杂的数学问题。

而 Qwen-32B 在 AIME 上更是达到了 72.6% 的准确率,在 MATH-500 上达到了 94.3%,这些成绩都接近于原始的 R1 模型。这一发现具有重要的实践意义:它证明了我们可以通过知识蒸馏的方式,将大模型的高级能力有效地转移到更小的模型中,这为 AI 技术的实际应用提供了一条可行的路径。

目前,DeepSeek 已将模型完整开源,包括 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 的六个蒸馏模型(参数规模分别为 1.5B、7B、8B、14B、32B 和 70B)。这些模型均采用 MIT 许可(MIT License)发布在 Hugging Face 平台上(地址:https://huggingface.co/deepseek-ai?continueFlag=f18057c998f54575cb0608a591c993fb),可以免费商用、允许任意修改和衍生开发、支持进行二次蒸馏训练。

参考资料:

1.https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

2.https://venturebeat.com/ai/open-source-deepseek-r1-uses-pure-reinforcement-learning-to-match-openai-o1-at-95-less-cost/

3.https://x.com/DrJimFan/status/1881353126210687089

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
活久见!领导签批文件将名字签在横线上,不落空白处,引发热议

活久见!领导签批文件将名字签在横线上,不落空白处,引发热议

火山詩话
2026-05-29 11:40:09
意料之中!尹锡悦无罪释放,朴槿惠复出站台,李在明真要翻车了?

意料之中!尹锡悦无罪释放,朴槿惠复出站台,李在明真要翻车了?

孤城落叶
2026-05-30 03:37:32
同事一个月请了三次丧假,结果领导说:你家亲戚死光了?然后同事就给了领导一耳光!我们上去拉偏架,最后领导被揍的鼻青脸肿,还降职调岗

同事一个月请了三次丧假,结果领导说:你家亲戚死光了?然后同事就给了领导一耳光!我们上去拉偏架,最后领导被揍的鼻青脸肿,还降职调岗

大爱三湘
2026-05-28 21:14:00
曹操撩寡妇说的金句,如今成约会开场白,男人常挂在嘴边

曹操撩寡妇说的金句,如今成约会开场白,男人常挂在嘴边

小豫讲故事
2026-05-29 06:00:19
九号M1电动车发布:100km全速真续航,首发价4899元起

九号M1电动车发布:100km全速真续航,首发价4899元起

IT之家
2026-05-29 19:55:32
中美日吸烟率差距断崖:美国12.1%,日本14.8%,中国是多少?

中美日吸烟率差距断崖:美国12.1%,日本14.8%,中国是多少?

小怪吃美食
2026-05-29 18:16:48
俄罗斯选手夺冠,第2名的乌克兰选手在台上戴上耳机,低头遮眼睛

俄罗斯选手夺冠,第2名的乌克兰选手在台上戴上耳机,低头遮眼睛

风过乡
2026-05-29 20:28:38
43岁香港女星在中山买房,晒房产证直呼划算,四房两厅不到200万

43岁香港女星在中山买房,晒房产证直呼划算,四房两厅不到200万

青梅侃史啊
2026-05-28 07:50:02
我在非洲干废品回收,娶了一对姐妹,年赚三百万,如今感觉快疯了

我在非洲干废品回收,娶了一对姐妹,年赚三百万,如今感觉快疯了

千秋文化
2026-05-01 19:00:05
惊人的母子定律:原来母亲的样子,直接决定了孩子的一生

惊人的母子定律:原来母亲的样子,直接决定了孩子的一生

一口娱乐
2026-05-11 15:33:57
山东二孩非亲生后续:长子当庭辱骂,生父殴打爷爷,叫嚣到处有人

山东二孩非亲生后续:长子当庭辱骂,生父殴打爷爷,叫嚣到处有人

奇思妙想草叶君
2026-05-28 18:43:04
台湾绿营几十年的谎言,一夜之间被神舟二十三号彻底撕碎

台湾绿营几十年的谎言,一夜之间被神舟二十三号彻底撕碎

精彩瞬间回顾
2026-05-28 00:07:27
一盘木耳毒死7人?医生警告:木耳尽量别这样吃,比砒霜还毒

一盘木耳毒死7人?医生警告:木耳尽量别这样吃,比砒霜还毒

医学科普汇
2026-05-27 16:52:29
她辞去南山人大常委会委员,同日被免去粤海街道人大工委主任

她辞去南山人大常委会委员,同日被免去粤海街道人大工委主任

南方都市报
2026-05-29 22:42:14
2亿灵活就业者,正在集体放弃社保:不是不想养老,是真的赌不起

2亿灵活就业者,正在集体放弃社保:不是不想养老,是真的赌不起

职场资深秘书
2026-05-29 15:54:56
央视总台发布美加墨世界杯权利声明

央视总台发布美加墨世界杯权利声明

财闻
2026-05-29 08:25:39
巩俐与替身同框!俩人长得像一个模子刻的,你能分辨出谁是本尊吗

巩俐与替身同框!俩人长得像一个模子刻的,你能分辨出谁是本尊吗

东方不败然多多
2026-05-30 04:01:12
脸都被打烂!阿隆索上任切尔西第一签!挖利物浦 1.16 亿水货

脸都被打烂!阿隆索上任切尔西第一签!挖利物浦 1.16 亿水货

奶盖熊本熊
2026-05-29 05:11:03
浙江一对烧伤情侣在527晒结婚照:两人各自在幼年时受伤,2年前刷到妻子账号被吸引,现在感觉很幸福

浙江一对烧伤情侣在527晒结婚照:两人各自在幼年时受伤,2年前刷到妻子账号被吸引,现在感觉很幸福

台州交通广播
2026-05-29 20:25:23
“最年轻的航天员”武飞顺利出舱,面带微笑称回到祖国感觉特别踏实,表哥发声:为弟弟感到骄傲

“最年轻的航天员”武飞顺利出舱,面带微笑称回到祖国感觉特别踏实,表哥发声:为弟弟感到骄傲

极目新闻
2026-05-29 21:53:30
2026-05-30 06:40:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16767文章数 514986关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

近3个月跌超20% 黄金"猴市"下的众生相

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

时尚
教育
健康
游戏
本地

推广中奖名单-更新至2026年4月28日推广

教育要闻

动点定值问题,一个视频学会!

尝试干细胞疗法如何避免踩坑?

Sky&Infi领衔参赛!2026 GG全能王赛重磅开启,7月线下决战

本地新闻

用剪纸的方式,打开江苏扬州

无障碍浏览 进入关怀版