网易首页 > 网易号 > 正文 申请入驻

DeepSeek又有重大突破?一款未公开大模型展现惊人能力

0
分享至

DeepSeek再一次发布了强大的开源大模型。

1月20日,国内大模型公司深度求索(DeepSeek)在其公众号公布了新一代开源大模型DeepSeek-R1,该模型号称在数学、代码、自然语言推理等任务上,性能比肩美国OpenAI公司最新的o1大模型正式版。

根据数据,DeepSeek-R1在算法类代码场景(Codeforces)和知识类测试(GPQA、MMLU)中的得分略低于OpenAI o1,但在工程类代码场景(SWE-Bench Verified)、美国数学竞赛(AIME 2024, MATH)项目上,均超过了OpenAI o1 。

其中,与深度求索上月发布的大模型DeepSeek-V3相比,DeepSeek-R1在AIME 2024和Codeforces中的得分提升了近一倍,而其余项均有不同程度的提升。

深度求索还更新了用户协议,明确模型开源License将统一使用标准的MIT许可,同时还允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。按照深度求索数据显示,在以DeepSeek-R1基础上进行“蒸馏”的6个小模型中,32B和70B模型在多项能力上都实现了对标OpenAI的o1-mini 的效果。

面对这个令人瞩目的成绩,深度求索则解释称,DeepSeek-R1 后训练阶段中大规模使用了强化学习(RL)技术,在仅有极少人工标注数据的情况下,极大提升了模型推理能力。这意味着该模型几乎跳过了监督微调(SFT)步骤,就实现了推理能力自我提升。

DeepSeek-R1-Zero自然而然地学会用更多的思考时间来解决推理任务。深度求索

通常情况下,强化学习的好处是可以通过与外界评价反馈,不断让模型自我优化,生成更符合人类偏好的内容。而监督微调则是指在预训练使用人工标注的数据进行干预,可以让生成的内容更准确且符合预期,这也是当年ChatGPT成功的关键。但从成本上来说,强化学习虽然需要大量人类反馈,且训练复杂计算成本高,但监督微调则非常依赖高质量的人工标注数据。

值得注意的是,目前深度求索向用户提供的仅有DeepSeek-R1版本,而在其公开测试结果中却透露了另一个大模型 —— DeepSeek-R1-Zero。该模型完全通过大规模使用强化学习替代了监督微调,但也导致了一些问题,因此未对外公开。

更重要的是,工作人员发现,在DeepSeek-R1-Zero自我学习的过程,随着时间的增加,该模型“涌现”出了复杂的行为,如自我反思、评估先前步骤、自发寻找替代方案的情况,还包括一次“尤里卡时刻”(“aha moment)。

“尤里卡时刻”指人类突然理解一个以前无法理解的问题或概念的某个时刻。

深度求索透露,这次“尤里卡”发生在DeepSeek-R1-Zero的的中间版本期间。当时工作人员惊奇地发现,在一道数学题中,该模型学会了使用拟人化的语气进行自我反思,并主动为问题分配了更多地时间进行重新思考。

深度求索称,工作人员并没有教DeepSeek-R1-Zero如何解决问题,只是提供了正确的激励,它就能自主发展出先进的问题解决策略。“这次尤里卡也提醒我们,强化学习有可能为人工智能解锁新的智能水平,为以后发展出更自主和适应性的模型铺平道路。”

不过,虽然DeepSeek-R1-Zero展示出了强大的推理能力,但自身也出现了一些语言混乱及可读性的问题,因此深度求索通过引入数千条高质量的冷启动数据和多段强化学习来解决这些问题,并获得了上文中对外正式公布的DeepSeek-R1大模型。

目前,DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。

本文系观察者网独家稿件,未经授权,不得转载。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界杯争议?阿根廷加时进球有效,FIFA给出了证据,越位真相大白

世界杯争议?阿根廷加时进球有效,FIFA给出了证据,越位真相大白

侃球熊弟
2026-07-04 08:27:13
斯卡洛尼:我们之前休息了六天现在却只剩三天半,这很难理解

斯卡洛尼:我们之前休息了六天现在却只剩三天半,这很难理解

懂球帝
2026-07-04 12:07:08
从加价六十万降到一年之内降价六十万,LX570神话就此终结

从加价六十万降到一年之内降价六十万,LX570神话就此终结

三农老历
2026-06-26 19:21:56
半年销量不足3万,高颜值阿维塔为何卖不动

半年销量不足3万,高颜值阿维塔为何卖不动

摸鱼算法
2026-07-04 02:18:13
张馨予老公放暑假被偶遇,退役后生活安逸,手拿2部手机帅气稳重

张馨予老公放暑假被偶遇,退役后生活安逸,手拿2部手机帅气稳重

椰黄娱乐
2026-07-03 12:07:31
苏有朋现身巴黎,这直接堪称"换脸"啊,走在街上都不敢认了!

苏有朋现身巴黎,这直接堪称"换脸"啊,走在街上都不敢认了!

黎兜兜
2026-07-01 08:17:18
北京解除高温黄色预警信号

北京解除高温黄色预警信号

新京报
2026-07-04 16:56:10
张灼华的一手好牌

张灼华的一手好牌

梳子姐
2026-07-03 22:16:58
LED幕墙现巨型空调 制冷16°C还上下扫风 网友:太会整活了

LED幕墙现巨型空调 制冷16°C还上下扫风 网友:太会整活了

快科技
2026-07-02 18:09:39
蔡康永日本办画展,林志玲头发油腻、面黄肌瘦,小S周杰伦送花篮

蔡康永日本办画展,林志玲头发油腻、面黄肌瘦,小S周杰伦送花篮

眼底星碎
2026-07-04 01:39:32
世卫组织推荐的肌肉不流失四大黄金法则,照着做,准没错

世卫组织推荐的肌肉不流失四大黄金法则,照着做,准没错

观星赏月
2026-06-18 15:29:58
长大后才明白有些玩笑背后满怀恶意!网友:怪不得当初听了很难过

长大后才明白有些玩笑背后满怀恶意!网友:怪不得当初听了很难过

一口娱乐
2026-07-03 13:09:30
奥运冠军庄晓岩曝丑闻:辽足训练中心教练刘某学,睡队员家长

奥运冠军庄晓岩曝丑闻:辽足训练中心教练刘某学,睡队员家长

南海浪花
2026-07-02 19:00:39
被告操控比分!但他拒绝认罪!

被告操控比分!但他拒绝认罪!

柚子说球
2026-07-04 22:36:53
注意,注意!有色金属的春天真的要来了!

注意,注意!有色金属的春天真的要来了!

趣味萌宠的日常
2026-07-04 20:30:23
从抵触到玩梗模仿!女生撞脸足坛巨星哈兰德爆火,连本尊都回复了

从抵触到玩梗模仿!女生撞脸足坛巨星哈兰德爆火,连本尊都回复了

草莓解说体育
2026-07-02 17:01:59
凌晨1点,72岁濮存昕用一根布绳,将自己和94岁老母狠狠绑在一起

凌晨1点,72岁濮存昕用一根布绳,将自己和94岁老母狠狠绑在一起

小椰的奶奶
2026-06-15 07:39:15
男篮输日本主因,阵中少了三个关键人,有他们在不会惨败19分

男篮输日本主因,阵中少了三个关键人,有他们在不会惨败19分

兵哥篮球故事
2026-07-04 12:17:05
WTT美国大满贯:国乒第1冠!林诗栋黄友政3:0晋级,包揽冠亚军

WTT美国大满贯:国乒第1冠!林诗栋黄友政3:0晋级,包揽冠亚军

国乒二三事
2026-07-04 06:46:51
糖尿病一点酒都不能喝?医生怒斥:糖尿病喝酒,或许有这5个后果

糖尿病一点酒都不能喝?医生怒斥:糖尿病喝酒,或许有这5个后果

健康之光
2026-07-04 15:24:18
2026-07-04 23:36:49
观察者网 incentive-icons
观察者网
全球视野,中国关怀
144687文章数 1850916关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

旅游
亲子
健康
房产
公开课

旅游要闻

“津旅时光号”7月线路上新!增开广阳站、塘沽站,串联京津冀

亲子要闻

爷爷给一个月宝宝的科普小课堂:怎么预防近视?

听说少吃点能抗衰老?专家讲解!

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版