网易首页 > 网易号 > 正文 申请入驻

「DeepSeek接班OpenAI」,最新开源的R1推理模型,让AI圈爆了

0
分享至

近日,AI领域迎来了一次重大突破,DeepSeek正式推出了其最新研发的开源推理模型——DeepSeek-R1。这一模型在数学、代码和自然语言推理等关键任务上的表现,已经能够与OpenAI的o1正式版相媲美,引发了AI研究者和从业者的广泛关注。

多阶段训练:创新的模型架构

DeepSeek-R1的训练方式采用了多阶段循环的策略,具体包括基础训练、强化学习(RL)、微调等多个阶段。这种独特的训练方式使得模型在推理能力上有了显著提升。例如,AutoAWQ的作者Casper Hansen指出,DeepSeek-R1通过这种多阶段训练,能够在较少标注数据的情况下,极大提升模型的推理能力。

行业领先的性能表现

DeepSeek-R1的推出,标志着AI行业在推理模型领域的又一次飞跃。UC Berkeley教授Alex Dimakis甚至认为,DeepSeek已经在某些方面处于领先地位,美国公司可能需要迎头赶上。DeepSeek-R1不仅在网页端、App端和API端全面上线,还提供了开源的模型权重,允许用户基于R1训练其他模型,极大地推动了AI技术的普及和应用。

性能对比:超越行业标杆

在性能方面,DeepSeek-R1的表现令人瞩目。与OpenAI的o1-1217、o1-mini以及自家的DeepSeek-V3相比,R1在多个数据集上的表现不相上下,甚至在某些任务上超越了现有模型。此外,DeepSeek-R1还蒸馏出了六个不同参数规模的小模型,包括1.5B、7B、8B、14B、32B和70B版本,这些模型同样完全开源,旨在回馈开源社区,推动AI技术的发展。

开源与性价比:推动行业进步

DeepSeek-R1的开源策略不仅体现在模型权重的开放,还体现在其极具竞争力的API定价上。与OpenAI的API定价相比,DeepSeek-R1的API服务价格仅为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元,远低于OpenAI的定价。这种高性价比的策略,无疑将吸引更多开发者和企业使用DeepSeek-R1,进一步推动AI技术的商业化应用。

技术细节:强化学习的创新应用

DeepSeek-R1的技术核心在于其对强化学习的创新应用。开发团队摒弃了传统的监督微调(SFT)作为冷启动的方式,而是通过大规模强化学习直接提升模型的推理能力。这种全新的思路不仅降低了训练成本,还提高了模型的适应性和灵活性。例如,DeepSeek-R1-Zero采用了群组相对策略优化(GRPO)来降低训练成本,通过从群组分数中估算基线,避免了使用与策略模型同样大小的评估模型,从而提高了训练效率。

奖励机制与训练模板

在奖励机制方面,DeepSeek-R1采用了准确度和格式两种互补的奖励机制。准确度奖励用于评估回答的正确性,而格式奖励则用于规范模型的输出格式。这种奖励机制的设计,使得模型能够在推理过程中更加注重思考过程的规范性和正确性。此外,开发团队还设计了简单的训练模板,引导模型先给出推理过程,再提供最终答案,这种设计不仅规范了模型的输出结构,还避免了对内容施加过多限制,使得模型能够在训练过程中自然发展出高级的解题策略。

自我进化能力:训练中的“灵光一现”

在训练过程中,DeepSeek-R1-Zero展现出了显著的自我进化能力。例如,在处理2024年的AIME数学奥赛试卷时,其平均pass@1分数从最初的15.6%显著提升到了71.0%,达到了与OpenAI-o1-0912相当的水平。更令人惊讶的是,在多数投票机制中,DeepSeek-R1-Zero的成功率进一步提升到了86.7%,甚至超过了OpenAI-o1-0912的表现。这种自我进化能力的背后,是强化学习的魅力——只要提供正确的奖励机制,模型就能自主发展出高级的解题策略。

冷启动数据的应用

为了防止基础模型在强化学习训练早期出现不稳定的冷启动阶段,开发团队针对R1构建并收集了少量的长CoT数据,以作为初始RL actor对模型进行微调。这些冷启动数据不仅提高了模型的可读性,还提升了模型的性能。开发团队通过精心设计具有人类先验知识的冷启动数据模式,观察到相较于DeepSeek-R1-Zero更好的性能表现。

模型的局限性与改进

尽管DeepSeek-R1在推理能力上取得了显著的突破,但仍然存在一些局限性。例如,DeepSeek-R1-Zero的回答可读性较差,语言混杂等问题。为了解决这些问题,开发团队在训练过程中引入了语言一致性奖励,以缓解语言混合的问题。此外,开发团队还通过拒绝采样和监督微调,进一步提升了模型的性能。

蒸馏技术:小模型的推理能力提升

为了使更高效的小模型具备DeepSeek-R1那样的推理能力,开发团队直接使用DeepSeek-R1整理的80万个样本对Qwen和Llama等开源模型进行了微调。这种简单的蒸馏方法显著增强了小模型的推理能力,使得它们能够在推理任务上表现出色。

未来展望:推动AI技术的边界

DeepSeek-R1的推出,不仅在技术上实现了突破,更在开源和性价比上为行业树立了新的标杆。通过开源模型权重和训练技术,DeepSeek为全球的AI研究者和开发者提供了强大的工具和资源,推动了AI技术的边界。未来,随着更多开发者和企业的参与,DeepSeek-R1有望在更多领域实现应用,为AI行业的发展注入新的动力。

DeepSeek-R1的出现,不仅是AI技术的一次重大突破,更是开源精神的胜利。它不仅为AI研究者提供了新的思路和方法,也为AI技术的商业化应用提供了新的可能性。随着DeepSeek-R1的不断优化和改进,我们有理由相信,它将在未来的AI领域中扮演更加重要的角色。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
卡福:应尊重安切洛蒂对内马尔的决定

卡福:应尊重安切洛蒂对内马尔的决定

懂球帝
2026-05-16 22:13:40
哈达德已身亡

哈达德已身亡

新京报政事儿
2026-05-16 18:36:12
中美峰会,蔡英文表态后,国民党一人不装了,新党发声,不一般

中美峰会,蔡英文表态后,国民党一人不装了,新党发声,不一般

DS北风
2026-05-15 18:38:11
商务部新闻发言人就中美经贸磋商初步成果答记者问

商务部新闻发言人就中美经贸磋商初步成果答记者问

界面新闻
2026-05-16 20:15:14
特朗普在中国喝了一口酒,把日本媒体整破防了!标题就说明了一切

特朗普在中国喝了一口酒,把日本媒体整破防了!标题就说明了一切

青青子衿
2026-05-16 19:42:03
“美国制造”不见了!“特朗普移动”手机开始发货,59万人交了总计5900万美元定金

“美国制造”不见了!“特朗普移动”手机开始发货,59万人交了总计5900万美元定金

红星新闻
2026-05-16 18:35:41
WSBK捷克站正赛首回合,张雪机车车手斩获赛季第四冠

WSBK捷克站正赛首回合,张雪机车车手斩获赛季第四冠

澎湃新闻
2026-05-16 19:02:26
影帝黄渤新片惨败,成本超2亿,票房不到100万,观众因何弃他?

影帝黄渤新片惨败,成本超2亿,票房不到100万,观众因何弃他?

影视高原说
2026-05-16 07:04:06
张雪峰猝死不到2月,小沈阳被紧急送往就医,已是10天内第二次

张雪峰猝死不到2月,小沈阳被紧急送往就医,已是10天内第二次

她时尚丫
2026-05-15 21:40:35
江苏将于17日迎来强降水 局地有雷电和大风

江苏将于17日迎来强降水 局地有雷电和大风

金台资讯
2026-05-16 08:43:35
拉塞尔12秒25夺得女子100米栏冠军,吴艳妮13秒16位列第七

拉塞尔12秒25夺得女子100米栏冠军,吴艳妮13秒16位列第七

懂球帝
2026-05-16 21:09:28
海莉·比伯穿丁字裤晒背影,刚否认做过巴西提臀术

海莉·比伯穿丁字裤晒背影,刚否认做过巴西提臀术

自愈小日子
2026-05-17 01:02:20
“给儿子吃得大脑缺氧了!”一顿全碳水早餐,暴露了宝妈的低认知

“给儿子吃得大脑缺氧了!”一顿全碳水早餐,暴露了宝妈的低认知

妍妍教育日记
2026-05-14 13:30:26
华为突然宣布:5月15日,Mate80全系正式官降

华为突然宣布:5月15日,Mate80全系正式官降

科技堡垒
2026-05-15 11:44:35
敬酒前宾客全走完了!河南新娘当场大哭追责,店家一句话全网沉默

敬酒前宾客全走完了!河南新娘当场大哭追责,店家一句话全网沉默

行者聊官
2026-05-16 16:00:17
人民大会堂国宴服务员惊艳刷屏:相貌大方,气质端庄,太美了!

人民大会堂国宴服务员惊艳刷屏:相貌大方,气质端庄,太美了!

TVB的四小花
2026-05-16 15:25:56
5月16日俄乌:俄罗斯不得不修改计划了

5月16日俄乌:俄罗斯不得不修改计划了

山河路口
2026-05-16 18:39:14
太离谱!原价2700元炒到近7万元!深圳有人通宵排队……

太离谱!原价2700元炒到近7万元!深圳有人通宵排队……

深圳晚报
2026-05-16 22:58:48
歌手温岚因脓毒症休克紧急入住ICU,三甲医院医生解读:是感染界“天花板”,居家死亡率100%

歌手温岚因脓毒症休克紧急入住ICU,三甲医院医生解读:是感染界“天花板”,居家死亡率100%

环球网资讯
2026-05-16 07:50:46
江西举报恩人沈女士已社死,正脸照被爆,大叔岗位被调,景区回应

江西举报恩人沈女士已社死,正脸照被爆,大叔岗位被调,景区回应

云舟史策
2026-05-16 09:39:33
2026-05-17 02:43:00
前沿科技学习分享圈 incentive-icons
前沿科技学习分享圈
朝看花开满树红,暮看花落树还空。若将花比人间事,花与人间事一同。
1686文章数 370关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

又想“抹黑”中国 福克斯新闻“翻车”了

头条要闻

又想“抹黑”中国 福克斯新闻“翻车”了

体育要闻

马刺2号,少年老成,这集看过?

娱乐要闻

谢霆锋北京街头骑行被偶遇,侧颜帅炸

财经要闻

造词狂魔贾跃亭

汽车要闻

大五座SUV卷王!乐道L80上市 租电15.68万元起

态度原创

时尚
本地
房产
艺术
公开课

女人不管年纪多大,都可以备好一件经典条纹T恤,减龄又舒适

本地新闻

用苏绣的方式,打开江西婺源

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

艺术要闻

惊!艾米·亚当斯竟是坠入凡间的仙女?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版