网易首页 > 网易号 > 正文 申请入驻

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

0
分享至

机器之心报道

编辑:佳琪、蛋酱

DeepSeek 又出手了,这次又是重磅炸弹。

昨晚,DeepSeek 上线了全新的推理模型 DeepSeek-R1-Lite-Preview,直接冲击 OpenAI o1 保持了两个多月的大模型霸主地位。

在美国数学竞赛(AMC)中难度等级最高的 AIME 以及全球顶级编程竞赛(codeforces)等权威评测中,DeepSeek-R1-Lite-Preview 模型已经大幅超越了 GPT-4o 等顶尖模型,有三项成绩还领先于 OpenAI o1-preview



背后的秘诀,就是「深度思考」。

更多的强化学习、原生的思维链、更长的推理时间,能让大模型的性能更强,这在领域内已经是广泛共识。这种模式其实非常像人类大脑的深度思考。

与 OpenAI o1 有点不一样的是,DeepSeek-R1-Lite-Preview 会在回复中展示「思路链」推理,也就是响应查询和输入的不同链或「思路」,并解释它在做什么以及为什么这样做。

就像是解题时,有人喜欢将每一步骤都详尽地写在卷子上,而 DeepSeek-R1-Lite-Preview 更进一步:把内心 OS 也都写出来了。

DeepSeek 官方表示,DeepSeek R1 系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。已经发布的 DeepSeek-R1-Lite-Preview 使用的是一个较小的基座模型,尚未完全释放长思维链的潜力。



对于用户的 Prompt,DeepSeek-R1-Lite-Preview 会有一个很长的推理过程。如上图中的红色实线所示,模型所能达到的准确率与所给定的推理长度呈正相关。且相比于传统的多次采样 + 投票(Majority Voting),模型思维链长度增加展现出了更高的效率。

最惊艳的是,发布即上线:所有用户均可通过官网开启与 DeepSeek-R1-Lite-Preview 的对话,但注意要先在输入框中打开「深度思考」模式,每天限制 50 次使用



体验地址:http://chat.deepseek.com/

不得不说,对 o1 直接发起冲击的 DeepSeek,着实让国内 AI 社区振奋了一把:



图源:https://www.zhihu.com/question/4689435060/answer/36575793425

由于 DeepSeek-R1-Lite-Preview 目前仅支持网页使用,没有发布完整代码供独立第三方分析或基准测试,也没有通过 API 提供 DeepSeek-R1-Lite-Preview 以进行同类独立测试,也没有解释 DeepSeek-R1-Lite-Preview 是如何训练或构建的博客文章或技术论文,大家心中其实还有许多的「问号」。

但 DeepSeek 已经表示,正式版 DeepSeek-R1 模型会完全开源,还会公开技术报告,部署 API 服务



图源:https://www.zhihu.com/question/4689435060/answer/36604051127

回想起上一次,DeepSeek-V2 的开源和 API 降价,直接引发了国产大模型厂商的降价浪潮。同样的力度再来一波,不知道大家如何顶住。

耐心等待的时间里,我们先来实测一下。

一手实测体验

与 OpenAI o1 相同的是,根据问题的复杂程度,它也需要「思考」数十秒后再回答。

虽然有些过程中的思路在人类看来可能毫无意义,甚至是错误的,但据初步测评,DeepSeek-R1-Lite-Preview 回复的最终整体准确率还是比较高的。

比如它可以回答 GPT-4o 和 Claude 系列都翻车过的问题 —— 经典陷阱题「Strawberry 这个词中有多少个字母 R?」和「9.11 和 9.9 哪个更大?」。

有用户在 DeepSeek Chat 上使用这些 Prompt 进行测试,回复结果和思考用时情况如下:



Strawberry 这个词中有多少个字母 R?用时 29 秒。



9.11 和 9.9 哪个更大?用时 9 秒。

不过在数草莓的问题上,R1-Lite-Preview 有时也会困惑,数出「只有 2 个 r」的答案:



机器之心也实测了一把,似乎对于中文,R1-Lite-Preview 的准确率更高:



对于需要动脑的问题,R1-Lite-Preview 的表现也可圈可点,比如它可以破解行测题的逻辑陷阱:





由 LeCun 提出的物理题:圆周上均匀分布了 7 根轴,每根轴上都有一个齿轮。每个齿轮都与其左边和右边的齿轮啮合。齿轮从 1 到 7 编号,依次沿圆周排列。问题是:如果齿轮 3 顺时针旋转,问齿轮 7 会沿什么方向旋转?



得出解来十分丝滑:



接下来,给 R1-Lite-Preview 上点强度,看看它能否笑对大学物理的噩梦:《电磁学千题解》。



在 34 秒内,它根据题意列出了对应的公式,得到了正确答案:



至于 R1-Lite-Preview 被全球顶级编程竞赛(codeforces)等权威评测检验过的代码能力,让它手撕大厂秋招级别的 Leetcode 经典题「岛屿问题」试一下:





运行起来也没大问题。

然而,相比推理、物理和编程,R1-Lite-Preview 的数学能力可能没那么让人放心。

比如科技博主 @Transformer - 周问了一道中学水平的数列题,只有 o1 和 o1mini 做对了,R1-Lite-Preview 没想出关键的破题思路,而是「蒙」出了答案。



而对于最能考验人类大脑的深度思考能力的 IMO 国际数学奥林匹克竞赛试题,R1-Lite-Preview 的表现是这样的:



这道代数题相当难,全球仅有 5 个人全对。在长达 162 秒的思考过程中,R1-Lite-Preview 洋洋洒洒地把解题思路写成了一篇小论文,可能它的老师也教过 —— 把解题过程写上能得一半分。





令人遗憾的是,最终答案 c=1 是错的,正确答案如下:



而另一位「解题过程没写全」的选手 OpenAI o1 却给出了正确答案:



这说明,DeepSeek-R1-Lite-Preview 仍有进步空间,也更让我们期待完整版模型的发布了。

各位读者已经试用了吗?欢迎在评论区分享有趣的实测案例。

https://mp.weixin.qq.com/s/e1YnTxZlzFvjcmrLLTA8fw

https://venturebeat.com/ai/deepseeks-first-reasoning-model-r1-lite-preview-turns-heads-beating-openai-o1-performance/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黑老大刘涌:掌掴刘德华,扬言让他死在沈阳,最后赵本山出面解决

黑老大刘涌:掌掴刘德华,扬言让他死在沈阳,最后赵本山出面解决

一更历史
2023-10-12 22:48:42
怪不得..圈内人都知道杜江对她是生理性喜欢

怪不得..圈内人都知道杜江对她是生理性喜欢

美食阿鳕
2025-02-02 19:49:37
福建一高层住宅因燃放烟花突发火灾,休假中的上海消防员救出两位老人

福建一高层住宅因燃放烟花突发火灾,休假中的上海消防员救出两位老人

澎湃新闻
2025-02-02 18:44:29
市委书记、市长们的春节假期

市委书记、市长们的春节假期

政知新媒体
2025-02-02 19:46:13
车长5480mm,864马力+智能光幕玻璃,顶配才150万,还看迈巴赫?

车长5480mm,864马力+智能光幕玻璃,顶配才150万,还看迈巴赫?

沙雕小琳琳
2025-02-02 23:22:50
吉林女子来婆家过年,5天胖了8斤,晒婆婆做的硬核早餐:吃不下了

吉林女子来婆家过年,5天胖了8斤,晒婆婆做的硬核早餐:吃不下了

阿龙美食记
2025-02-02 19:15:32
曼联太亏了!错信安东尼,放走全能边锋:如今8球17助,闪耀英超

曼联太亏了!错信安东尼,放走全能边锋:如今8球17助,闪耀英超

球场没跑道
2025-02-02 13:23:50
倪萍直播透露李小冉退出《一路繁花》群聊,李小冉凌晨回应:退群是什么犯罪的事吗?!连发多条微博怒怼网友

倪萍直播透露李小冉退出《一路繁花》群聊,李小冉凌晨回应:退群是什么犯罪的事吗?!连发多条微博怒怼网友

鲁中晨报
2025-02-01 15:10:13
小鹏内外开花夺销量冠军,问界创14个月来交付量新低,理想不理想

小鹏内外开花夺销量冠军,问界创14个月来交付量新低,理想不理想

沙雕小琳琳
2025-02-01 23:05:29
王源这张脸,放到现在都出不了道吧。他才24岁,法令纹就这么重了

王源这张脸,放到现在都出不了道吧。他才24岁,法令纹就这么重了

人情皆文史
2024-12-12 03:14:19
李隼缺席引猜测!梁靖崑向国际乒联提建议像演戏,巨大疑点曝光

李隼缺席引猜测!梁靖崑向国际乒联提建议像演戏,巨大疑点曝光

三十年莱斯特城球迷
2025-02-02 22:27:49
湖人再推进2换1得中锋!东契奇交易原因被爆,詹姆斯满意可冲西决

湖人再推进2换1得中锋!东契奇交易原因被爆,詹姆斯满意可冲西决

杨仔述
2025-02-02 22:36:40
浙江女子因穿特色衣服坐地铁引发热议,网友感叹形象受损。

浙江女子因穿特色衣服坐地铁引发热议,网友感叹形象受损。

星辰生肖馆
2025-01-25 00:32:27
爆炸新闻: 大S确认去世! 享年48岁! 小S已证实, 她这一生...多希望今天是个谣言...

爆炸新闻: 大S确认去世! 享年48岁! 小S已证实, 她这一生...多希望今天是个谣言...

澳洲红领巾
2025-02-03 11:17:33
又被李嘉诚说中了!中国手握两套房以上的家庭,未来只有3种结局

又被李嘉诚说中了!中国手握两套房以上的家庭,未来只有3种结局

室内设计师有料儿
2024-12-12 11:25:47
1-1,92分钟绝平,28岁曼城旧将力挽狂澜:助罗马逼平意甲领头羊

1-1,92分钟绝平,28岁曼城旧将力挽狂澜:助罗马逼平意甲领头羊

侧身凌空斩
2025-02-03 05:51:29
54岁莫文蔚和老公看演出,素颜被评又老又丑,老公却给足安全感

54岁莫文蔚和老公看演出,素颜被评又老又丑,老公却给足安全感

观察鉴娱
2025-02-03 09:05:02
公务员请记住:只要你职级没有变、工资没有降,就把所有人当空气

公务员请记住:只要你职级没有变、工资没有降,就把所有人当空气

芯怡飞
2024-10-15 10:38:41
亚太股市全线低开 日经225指数开盘跌1.58%

亚太股市全线低开 日经225指数开盘跌1.58%

证券时报
2025-02-03 08:44:07
o3-mini 碾压DeepSeek R1?一条python程序引发近400万围观

o3-mini 碾压DeepSeek R1?一条python程序引发近400万围观

机器之心Pro
2025-02-02 15:57:01
2025-02-03 12:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
10003文章数 142167关注度
往期回顾 全部

科技要闻

狂飙!比亚迪大爆发,1月销量超30万辆

头条要闻

牛弹琴:一场史诗级贸易战就此开打 中美展开直接较量

头条要闻

牛弹琴:一场史诗级贸易战就此开打 中美展开直接较量

体育要闻

史诗级交易!东契奇浓眉互换

娱乐要闻

家属悲恸证实大S去世:流感并发肺炎

财经要闻

一场史诗级贸易战,就此开打了

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

时尚
教育
亲子
手机
旅游

中年微胖女人如何穿衣?这几个增高显瘦技巧,快学起来

教育要闻

台湾省中考题,10 10 10=99,很多学生不会添加符号

亲子要闻

妈妈给出生不久的宝宝洗头,宝宝惊讶的张大嘴巴

手机要闻

魅族25年新机确认,多款新品待发布

旅游要闻

假期临近尾声,庙会景区周边交通压力持续

无障碍浏览 进入关怀版