「DeepSeek接班OpenAI」，最新开源的R1推理模型，让AI圈爆了|大模型|openai|deepseek

「DeepSeek接班OpenAI」，最新开源的R1推理模型，让AI圈爆了

分享至

近日，AI领域迎来了一次重大突破，DeepSeek正式推出了其最新研发的开源推理模型——DeepSeek-R1。这一模型在数学、代码和自然语言推理等关键任务上的表现，已经能够与OpenAI的o1正式版相媲美，引发了AI研究者和从业者的广泛关注。

多阶段训练：创新的模型架构

DeepSeek-R1的训练方式采用了多阶段循环的策略，具体包括基础训练、强化学习（RL）、微调等多个阶段。这种独特的训练方式使得模型在推理能力上有了显著提升。例如，AutoAWQ的作者Casper Hansen指出，DeepSeek-R1通过这种多阶段训练，能够在较少标注数据的情况下，极大提升模型的推理能力。

行业领先的性能表现

DeepSeek-R1的推出，标志着AI行业在推理模型领域的又一次飞跃。UC Berkeley教授Alex Dimakis甚至认为，DeepSeek已经在某些方面处于领先地位，美国公司可能需要迎头赶上。DeepSeek-R1不仅在网页端、App端和API端全面上线，还提供了开源的模型权重，允许用户基于R1训练其他模型，极大地推动了AI技术的普及和应用。

性能对比：超越行业标杆

在性能方面，DeepSeek-R1的表现令人瞩目。与OpenAI的o1-1217、o1-mini以及自家的DeepSeek-V3相比，R1在多个数据集上的表现不相上下，甚至在某些任务上超越了现有模型。此外，DeepSeek-R1还蒸馏出了六个不同参数规模的小模型，包括1.5B、7B、8B、14B、32B和70B版本，这些模型同样完全开源，旨在回馈开源社区，推动AI技术的发展。

开源与性价比：推动行业进步

DeepSeek-R1的开源策略不仅体现在模型权重的开放，还体现在其极具竞争力的API定价上。与OpenAI的API定价相比，DeepSeek-R1的API服务价格仅为每百万输入tokens 1元（缓存命中）/4元（缓存未命中），每百万输出tokens 16元，远低于OpenAI的定价。这种高性价比的策略，无疑将吸引更多开发者和企业使用DeepSeek-R1，进一步推动AI技术的商业化应用。

技术细节：强化学习的创新应用

DeepSeek-R1的技术核心在于其对强化学习的创新应用。开发团队摒弃了传统的监督微调（SFT）作为冷启动的方式，而是通过大规模强化学习直接提升模型的推理能力。这种全新的思路不仅降低了训练成本，还提高了模型的适应性和灵活性。例如，DeepSeek-R1-Zero采用了群组相对策略优化（GRPO）来降低训练成本，通过从群组分数中估算基线，避免了使用与策略模型同样大小的评估模型，从而提高了训练效率。

奖励机制与训练模板

在奖励机制方面，DeepSeek-R1采用了准确度和格式两种互补的奖励机制。准确度奖励用于评估回答的正确性，而格式奖励则用于规范模型的输出格式。这种奖励机制的设计，使得模型能够在推理过程中更加注重思考过程的规范性和正确性。此外，开发团队还设计了简单的训练模板，引导模型先给出推理过程，再提供最终答案，这种设计不仅规范了模型的输出结构，还避免了对内容施加过多限制，使得模型能够在训练过程中自然发展出高级的解题策略。

自我进化能力：训练中的“灵光一现”

在训练过程中，DeepSeek-R1-Zero展现出了显著的自我进化能力。例如，在处理2024年的AIME数学奥赛试卷时，其平均pass@1分数从最初的15.6%显著提升到了71.0%，达到了与OpenAI-o1-0912相当的水平。更令人惊讶的是，在多数投票机制中，DeepSeek-R1-Zero的成功率进一步提升到了86.7%，甚至超过了OpenAI-o1-0912的表现。这种自我进化能力的背后，是强化学习的魅力——只要提供正确的奖励机制，模型就能自主发展出高级的解题策略。

冷启动数据的应用

为了防止基础模型在强化学习训练早期出现不稳定的冷启动阶段，开发团队针对R1构建并收集了少量的长CoT数据，以作为初始RL actor对模型进行微调。这些冷启动数据不仅提高了模型的可读性，还提升了模型的性能。开发团队通过精心设计具有人类先验知识的冷启动数据模式，观察到相较于DeepSeek-R1-Zero更好的性能表现。

模型的局限性与改进

尽管DeepSeek-R1在推理能力上取得了显著的突破，但仍然存在一些局限性。例如，DeepSeek-R1-Zero的回答可读性较差，语言混杂等问题。为了解决这些问题，开发团队在训练过程中引入了语言一致性奖励，以缓解语言混合的问题。此外，开发团队还通过拒绝采样和监督微调，进一步提升了模型的性能。

蒸馏技术：小模型的推理能力提升

为了使更高效的小模型具备DeepSeek-R1那样的推理能力，开发团队直接使用DeepSeek-R1整理的80万个样本对Qwen和Llama等开源模型进行了微调。这种简单的蒸馏方法显著增强了小模型的推理能力，使得它们能够在推理任务上表现出色。

未来展望：推动AI技术的边界

DeepSeek-R1的推出，不仅在技术上实现了突破，更在开源和性价比上为行业树立了新的标杆。通过开源模型权重和训练技术，DeepSeek为全球的AI研究者和开发者提供了强大的工具和资源，推动了AI技术的边界。未来，随着更多开发者和企业的参与，DeepSeek-R1有望在更多领域实现应用，为AI行业的发展注入新的动力。

DeepSeek-R1的出现，不仅是AI技术的一次重大突破，更是开源精神的胜利。它不仅为AI研究者提供了新的思路和方法，也为AI技术的商业化应用提供了新的可能性。随着DeepSeek-R1的不断优化和改进，我们有理由相信，它将在未来的AI领域中扮演更加重要的角色。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.