网易首页 > 网易号 > 正文 申请入驻

惊爆老外的DeepSeek-R1到底多强?实测高考真题,仍存4个短板

0
分享至


智东西
作者 陈骏达
编辑 心缘

智东西1月21日报道,昨晚开源的DeepSeek-R1模型问世即爆火,在AI圈热度持续发酵。不到一天,他们公布在GitHub上的论文就获得5000多收藏,相关话题在YC黑客新闻、Reddit和X等平台的互动量已经过万。DeepSeek-R1目前在Web和App端可完全免费使用,模型均开源,多领域性能比肩OpenAl o1。智东西也在第一时间上手体验了这款模型。

英伟达资深科学家、AI Agents业务负责人Jim Fan给予了极高评价,说DeepSeek-R1不仅开源了大量的模型(正式版+6款蒸馏模型),还分享了所有的训练细节和方法,可能是第一个充分展示强化学习(RL)飞轮效应显著,且仍在持续增长的开源项目。

▲Jim Fan对DeepSeek-R1做出高度评价(图源:@DrJimFan)

根据实测体验,这款模型80多秒就能完成一道高考压轴题,9分钟就能写出一段“开箱即用”的代码,这段代码渲染出的动画生动地讲解了量子力学的相关概念。它也是一名不错的文科生,能在普通人还没读完题时就得出脑筋急转弯的答案,或是将古埃及、南非原住民历史中的细枝末节分析得头头是道。

如果仔细阅读DeepSeek-R1的思考过程,就能发现它思考时的语言风格十分自然,还会随口蹦出一些“Yeah, that works!”这样的活泼表述。

与DeepSeek-V3相比,推理能力让DeepSeek-R1的回答更为全面、详实,且论证充分。它一般会以结构化的方式提供回答,并在思考和回答过程中补充大量背景信息,不少用户反馈这些信息很有启发性。

据DeepSeek官方公布的数据,这款模型在数学、代码、自然语言推理等任务上,和OpenAI o1正式版的表现不相上下。


更惊人的是,DeepSeek-R1在大规模强化学习(RL)中自然涌现出了强大的推理能力和有趣的推理行为,并未进行有监督的微调(SFT)。

根据体验结果和DeepSeek官方的介绍,DeepSeek-R1目前在通用性、多语言能力、提示工程和软件工程能力这4大领域面临一些挑战,这导致它在函数调用、复杂角色扮演等任务上的表现还没有达到预期水准。

DeepSeek-R1采取了发布即上线的策略,用户已经在DeepSeek官网与App上免费体验这款模型,也可通过每百万tokens输出仅需16元(OpenAI o1价格的3.7%)的API接口使用。

下面,我们就分别从理科、文科和模型短板这三方面来看看DeepSeek-R1在实测中的表现。

开源地址:
https://huggingface.co/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d

论文地址:
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

一、83秒解答高考压轴题,动画解释量子力学

理科类问题一直是推理类模型的优势领域之一,简单初高中的数学题已经难不住大部分推理模型了,所以我们直接给DeepSeek-R1上了一道2024年高考全国甲卷理科数学压轴题。

DeepSeek-R1用83秒回答了这一问题,答案完全正确。美中不足的是,它的求解过程并不完全符合评分标准中的规范,漏掉了一个需要证明的点,应该拿不了满分。


X平台上的海外网友贡献了一个十分有趣的用例——他将自己对量子电动力学原理的理解告诉DeepSeek-R1,让DeepSeek-R1用直观的视觉方式呈现出来,下方是这位网友的部分提示词。


DeepSeek-R1提供了实现这一效果的代码,渲染出来的效果是这样的:

这位网友称,DeepSeek-R1生成这一代码单次耗时大约9分钟,一次成功,没有出现数学错误,仅出现视觉平面偏离的问题,他很快就修复了。这几乎是一种“开箱即用”的体验。

不过,DeepSeek-R1也是有能力上限的,这道美国2024年AIME数学邀请赛真题就难住了它。

DeepSeek-R1思考了足足213秒才给出回答,结果也与正确答案不符合。


下方这道2006年IMO(国际数学奥林匹克竞赛)的第三题(也是最难的问题)让OpenAI o1都束手无策,而DeepSeek-R1也没能成功回答,从第二步开始,它的回答就与标准答案相去甚远。



综合体验下来,DeepSeek-R1已经具备了不俗的理科实力,大致相当于一名优秀的大学生。考虑到它较快的响应速度和极低的价格,这一成果难能可贵。

二、文科实力同样不俗,推理能力提升信息丰富度

DeepSeek介绍,自然语言推理也是DeepSeek-R1的强项之一。智东西从斯坦福自然语言推理数据集中选取了几道题目,DeepSeek-R1基本都能在10秒内给出正确答案。

而在中文脑筋急转弯类的问题上,智东西让DeepSeek-R1回答了10道题目,回答用时均在10秒钟以内,答案也都完全正确。在下方这道题目中,它不仅给出了最常见的答案,还在思考过程中分析了水蛭、跳蚤等其它动物。

▲中文脑筋急转弯测试中的一道题目

在文字推理之外,我们也有必要对DeepSeek-R1的其它文科类能力进行测试。近期奥地利研究机构复杂性科学中心(CSH) 的研究显示,大模型在历史类问题上的表现普遍不佳,由于史料数量的差异,大模型很有可能混淆不同的历史阶段,最终给出错误答案。

比如,“古埃及有没有常备军”这个问题就难住许多大模型,无论其是否具备推理能力。

当智东西将上述问题发送给DeepSeek-R1时,它的回答条理清晰,经过人工逐一查证,DeepSeek-R1对历史事件的描述基本准确,而在时间上与部分主流表述有冲突,回答的综合质量比较高


而面对非洲原住民这种史料极为缺乏的群体,R1也能给出正确信息和完整的论证。


为确保客观,智东西也测试了DeepSeek-v3这一不具备推理能力的模型在上方问题中的表现。在大部分问题上,无论具备推理能力与否,模型都能给出正确答案,推理能力给模型带来的主要增益在信息丰富度、文字逻辑等方面

三、实测用外文思考更慢,少样本提示会起反作用

说完了优点,那DeepSeek-R1有没有什么能力的短板呢?据DeepSeek官方在论文中的介绍,这款模型针对英文和英文进行了优化,有时模型无法按照用户问题的语言进行思考。

比如,当我将脑筋急转弯问题用德语输入后,DeepSeek-R1会自动将其翻译成中文或英文,然后再作答。这一过程会减慢DeepSeek-R1的思考速度,因为它花了大量的时间在讨论德语问题的翻译结果。最终,它的回答从蚊子变成了水蛭,据它自己介绍,这一答案参考了其它德语谜语。


同时,提示词形式对DeepSeek-R1的表现也有很大的影响。有部分提示词会通过提供多个示例来提升回答质量,但在DeepSeek-R1上这可能会适得其反。当智东西将下方少样本提示词(Few-Shot Prompt)发给DeepSeek-R1和DeepSeek-V3时,前者需要花费7秒才能得出答案,而后者用时不到1秒。


▲测试中用到的多示例提示词

从DeepSeek-R1的思考过程来看,它在此类提示词上出现问题的原因可能是“想太多了”。

DeepSeek-R1的论文中还写到,这款模型的通用能力和软件工程任务的能力目前存在短板,但在未来,他们会通过长思维链技术、异步评估等来提高模型表现。

结语:中国开源AI力量未来可期

DeepSeek-R1一经发布,就得到全球AI开发者的积极采用和高度评价。有人晒出自己用了数小时API后0.06美元的账单,也有人分享蒸馏后的模型在M2芯片笔记本上高速运行的画面。

值得一提的是,DeepSeek-R1是DeepSeek旗下首款以MIT协议开源(包含权重)的模型,不限制商用,也无需申请,还明确允许通过模型蒸馏等方式将DeepSeek-R1用于训练其他模型。这意味着DeepSeek-R1有望在全球AI领域产生广泛影响,也能从全球开源社区中获得正向反馈,不断改进模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
好戏连台!明晚起央八黄金档接连开播三部大剧,实力派群星云集,掀起全民追剧热潮

好戏连台!明晚起央八黄金档接连开播三部大剧,实力派群星云集,掀起全民追剧热潮

喜欢历史的阿繁
2026-05-17 06:26:29
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
顿巴斯最后防线崩溃!红利曼巷战收尾,俄罗斯已经丢弃幻想?

顿巴斯最后防线崩溃!红利曼巷战收尾,俄罗斯已经丢弃幻想?

浅色夏么
2026-05-17 13:40:21
杨振宁去世7个月后,49岁的翁帆近况曝光,模样大变令人不敢认

杨振宁去世7个月后,49岁的翁帆近况曝光,模样大变令人不敢认

借你一生
2026-05-17 13:03:42
保姆变继母,只用了63天。她上任就把我妈种了30年的月季,全拔了

保姆变继母,只用了63天。她上任就把我妈种了30年的月季,全拔了

真实人物采访
2026-05-16 19:27:28
澳洲华人区竟然要建印度城?! 当地居民炸了, 集体请愿抵制!

澳洲华人区竟然要建印度城?! 当地居民炸了, 集体请愿抵制!

澳微Daily
2026-05-17 15:05:37
瞒不住了!林诗栋背后姐姐大有来头,难怪实力封神,日本输得不冤

瞒不住了!林诗栋背后姐姐大有来头,难怪实力封神,日本输得不冤

星娱叨叨社
2026-05-15 15:37:40
85%设备来自中国,印度光伏低成本扩张,中国龙头却陷泥潭

85%设备来自中国,印度光伏低成本扩张,中国龙头却陷泥潭

财经保探长
2026-05-17 14:39:06
发现一个现象:中产返贫三件套,已经升级为六件套了!

发现一个现象:中产返贫三件套,已经升级为六件套了!

人间百态中的温馨
2026-05-15 22:56:38
人类最大火箭更新:推力超1万吨,堪比055直接上天

人类最大火箭更新:推力超1万吨,堪比055直接上天

哎呀哎呀看电影
2026-05-16 09:17:34
浙江一地紧急抽检福建杨梅!记者暗访发现,收购点违规添加防腐剂甜味剂,工人“不敢吃”,商家称“都这样”……

浙江一地紧急抽检福建杨梅!记者暗访发现,收购点违规添加防腐剂甜味剂,工人“不敢吃”,商家称“都这样”……

都市快报橙柿互动
2026-05-17 09:15:28
“盲人在盲道被撞”系摆拍!有MCN离职视障人士称:此赛道已饱和 后期依赖摆拍

“盲人在盲道被撞”系摆拍!有MCN离职视障人士称:此赛道已饱和 后期依赖摆拍

闪电新闻
2026-05-17 13:03:00
能接受吗?13秒16的吴艳妮来了 从亚洲一姐到亚洲九妹她心气已松

能接受吗?13秒16的吴艳妮来了 从亚洲一姐到亚洲九妹她心气已松

劲爆体坛
2026-05-17 07:26:09
79岁老人低血糖昏迷被误认将去世,初三孙子拨打120救下爷爷,事后为家人科普低血糖

79岁老人低血糖昏迷被误认将去世,初三孙子拨打120救下爷爷,事后为家人科普低血糖

大风新闻
2026-05-16 12:37:03
安徽姑娘非要30万彩礼不松口,男友一气之下娶了她闺蜜只花8万

安徽姑娘非要30万彩礼不松口,男友一气之下娶了她闺蜜只花8万

周哥一影视
2026-05-17 12:46:05
日本世乒赛丢金后,中泽锐与张本宇互撕,还没赢国乒,就先内讧!

日本世乒赛丢金后,中泽锐与张本宇互撕,还没赢国乒,就先内讧!

好乒乓
2026-05-16 15:44:09
这个“界”车,4月销量仅26台!

这个“界”车,4月销量仅26台!

电动知家
2026-05-16 18:49:50
26国对伊朗下通牒!武力护航霍尔木兹,全球耐心耗尽

26国对伊朗下通牒!武力护航霍尔木兹,全球耐心耗尽

凤眼论
2026-05-15 21:45:41
科学家证实:只要连续两天不吃饭,就能够重建整个免疫系统?

科学家证实:只要连续两天不吃饭,就能够重建整个免疫系统?

Thurman在昆明
2026-05-15 05:50:50
长期吃“燕麦”当早餐的人,后来都怎么样了?可能自己都不相信

长期吃“燕麦”当早餐的人,后来都怎么样了?可能自己都不相信

芹姐说生活
2026-05-16 15:54:49
2026-05-17 15:43:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11838文章数 117077关注度
往期回顾 全部

科技要闻

三大运营商即将免月租?多方回应

头条要闻

夫妻回酒店遇陌生醉汉躺客房 贴身衣物被乱翻妻子崩溃

头条要闻

夫妻回酒店遇陌生醉汉躺客房 贴身衣物被乱翻妻子崩溃

体育要闻

又见抢七!活塞全员发挥or骑士双核爆发?

娱乐要闻

《主角》刘浩存上线,死别猝不及防

财经要闻

OpenAI和苹果的“联盟”即将破裂

汽车要闻

大五座SUV卷王!乐道L80上市 租电15.68万元起

态度原创

家居
健康
数码
游戏
公开课

家居要闻

110㎡淡而有致的生活表达

专家揭秘干细胞回输的安全风险

数码要闻

红魔游戏平板5 Pro或将延期?姜超吐槽要“被迫”重新定义5月

国内《大镖客2》PS5版预购店家犯大病!订单全部取消

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版