网易首页 > 网易号 > 正文 申请入驻

记者实测 | DeepSeek-R1对决四款主流推理模型:基础题意外“翻车”,高难度推理碾压ChatGPT o1

0
分享至

1月20日发布的DeepSeek-R1模型让开发公司DeepSeek在全球的热度持续攀升。1月27日,DeepSeek接连登顶苹果中国和美国地区应用商城的免费应用排行榜,甚至超越了大众熟知的ChatGPT。

诸多测评结果显示,DeepSeek旗下模型R1在多个基准测试下都能匹敌甚至超越OpenAI、谷歌和Meta的大模型,而且成本更低。在聊天机器人竞技场综合榜单上,DeepSeek-R1已经升至全类别大模型第三,其中,在风格控制类模型(StyleCtrl)分类中与顶尖推理模型OpenAI o1并列第一。其竞技场得分达到1357分,略超OpenAI o1的1352分。

据外媒报道,Meta专门成立了四个专门研究小组来研究DeepSeek的工作原理,并基于此来改进旗下大模型Llama

其中两个小组正在试图了解DeepSeek如何降低训练和运行成本;第三个研究小组则在研究DeepSeek训练模型可能用到的数据;第四个小组正在考虑基于DeepSeek模型属性重构Meta模型。

《每日经济新闻》记者也对炙手可热的R1模型与四款主流推理模型——OpenAI的ChatGPT o1、谷歌的Gemini 2.0 Flash Thinking Experimental、字节跳动的豆包1.5Pro和月之暗面的Kimi 1.5——进行了对比测试。测试结果显示,DeepSeek在难度最低的简单逻辑推理问题上表现不佳,但在高难度问题上表现可圈可点,不仅回答正确,还在速度上击败了o1。

DeepSeek旗下模型极低的训练成本或许预示着AI大模型对算力投入的需求将大幅下降。多家券商研报指出,算力需求会加速从预训练向推理侧倾斜,推理有望接力训练,成为下一阶段算力需求的主要驱动力。

记者实测:DeepSeek简单问题出错,高难度问题完胜,并在速度上击败o1

《每日经济新闻》记者对DeepSeek-R1以及市面上的几款主流推理模型进行了对比测试,包括o1、谷歌的Gemini 2.0 Flash Thinking Experimental、字节跳动的豆包1.5Pro和月之暗面的Kimi 1.5。

记者选择了三个问题对以上五款模型进行测试,难度依次升级(分别为一级到三级),依次评估模型的整体表现。由于DeepSeek的模型并不具备多模态功能,所以未进行多模态相关测试。

首先需要明确的是,推理模型与传统的大语言模型在输出方式上采用了两种不同的模式。传统的大语言模型对于模型的输出采用的预测模式,即通过大规模的预训练猜测下一个输出应该是什么。而推理模型则具备自我事实核查能力,能够有效避免一些常见错误,使之输出逻辑更接近人类自身思考推理的过程。所以,推理模型在解决问题时通常比非推理模型需多花费几秒到几分钟,在物理、科学和数学等领域,其可靠性更高,但在常识领域可能有着效率不高的问题。

DeepSeek推理过程示意图

难度I|三个灯泡问题:五大模型全部通关

首先,记者选择了一道简单的思维问题:在一个黑暗的房间里,有三个开关,分别控制着房间外的三个灯泡。你站在房间里,不能看到灯泡,只能通过开关控制它们。你只能走一次出去检查灯泡,如何确定每个开关控制哪个灯泡?

五个模型都很快得出了正确答案,在这个简单的问题上没有分出区别。

豆包

DeepSeek

Kimi

Gemini

o1

难度II|囚犯帽子颜色推理:DeepSeek、Kimi犯错,Gemini耗时最短且完全正确

接下来问题升级:有四位囚犯排队站好,囚犯1号能看见囚犯2号和囚犯3号;囚犯2号可以看见囚犯3号;囚犯3号看不见任何人;囚犯4号也看不见任何人。他们知道一共有4顶帽子,2黑2白,但并不知道自己头顶的帽子是什么颜色。请问谁会是第一个知道自己头顶的帽子是什么颜色并且迅速喊出来的人?

在这个问题上,DeepSeek和Kimi都犯错了,两者在推理过程中推导出了一种情况,但正确选项应该是两种。

Kimi

DeepSeek

而Gemini、豆包和o1都回答正确。其中,Gemini推理速度最快,仅用了6.8秒就得出了结果,最慢的是o1,耗时1分02秒。

Gemini

o1

豆包

难度III|研究生级别数学题:DeepSeek-R1完胜,且用时最短

评测结果显示,DeepSeek在科学领域如数学能力上排名第一。于是,记者找来了一道研究生级别的数学题进行测试:找出所有阶为147且不包含阶为49的元素的两两不同同构群(出自美国南加州大学博士资格考试)。

在这一问题上,DeepSeek-R1没有“辜负”评测,表现最好,找出了三个解。除o1外的其他模型只找出了两个解,而且,Kimi在推理过程中还开启了联网查询功能进行辅助推理,但仍然少了一个解。

虽然o1也找出了三个解,但耗时更长,用了4分17秒得出答案,而DeepSeek-R1只花费了2分18秒。

DeepSeek

o1

豆包

Gemini

Kimi

综合各项测试来看,DeepSeek存在一个反常识的问题,即在难度不高的问题上表现不如其他模型好,甚至可能会出现其他模型不会出现的错误。但是当难度提升到专家级别的程度上时,DeepSeek的表现反而变成了最好的模型。

这就是说,对于需要专业知识辅导的从业人员或研究人员来说,DeepSeek是一个好的选择。

DeepSeek力压ChatGPT登顶苹果应用榜

1月27日,苹果App Store中国区免费榜显示,近一周全球刷屏的DeepSeek一举登上首位。同时,DeepSeek在美国区苹果App Store免费榜从前一日的第六位飙升至第一位,超越ChatGPT、Meta旗下的社交媒体平台Threads、Google Gemini,以及Microsoft Copilot等AI产品。

许多科技界人士都在大肆宣扬该公司所取得的成就及其对AI领域的意义。

例如,著名投资公司A16z创始人马克安德森27日表示,DeepSeek-R1是AI的斯普特尼克时刻(注:这是指1957年10月4日苏联抢先美国成功发射斯普特尼克1号人造卫星,令西方世界陷入一段恐惧和焦虑的时期)。

DeepSeek-R1在一些AI基准测试上匹敌甚至超越了OpenAI的o1模型。DeepSeek-R1在聊天机器人竞技场综合榜单上排名第三,与顶尖推理模型o1并列。

在高难度提示词、代码和数学等技术性极强的领域,DeepSeek-R1拔得头筹,位列第一。

在风格控制方面,DeepSeek-R1与o1并列第一,意味着模型在理解和遵循用户指令,并按照特定风格生成内容方面表现出色。

在高难度提示词与风格控制结合的测试中,DeepSeek-R1与o1也并列第一,进一步证明了其在复杂任务和精细化控制方面的强大能力。

图片来源:聊天机器人竞技场

Artificial-Analysis对DeepSeek-R1的初始基准测试结果也显示,DeepSeek-R1在AI分析质量指数中取得第二高分,价格是o1的约三十分之一。

图片来源:Artificial-Analysis

预训练时代将终结,推理正在崛起

DeepSeek旗下模型极低的训练成本或许预示着AI大模型对算力投入的需求将大幅下降。

“AI预训练时代无疑将终结。”2024年12月13日,在温哥华NeurIPS大会上,OpenAI联合创始人兼前首席科学家伊利亚•苏茨克维尔(Ilya Sutskever)直言。

在这场演讲中,Ilya Sutskever将数据比作化石燃料,而燃料终将耗尽。“算力在增长,但数据却没有增长,因为我们只有一个互联网……我们已经达到了数据峰值,不会再有更多数据了,我们必须处理好现有的数据。”现有数据仍可推动AI进一步发展,业内也正在竭力挖掘新数据进行训练,这种情况最终将迫使行业改变目前的AI模型训练方式。他预计,下一代AI模型将是真正的AI Agent,且具备推理能力。

预训练是指使用大量数据训练AI模型的过程,通常需要极高的计算能力和存储资源。训练过程通常在数据中心完成,耗时较长,成本高昂。推理是指将训练好的模型应用于实际任务(如生成文本、识别图像、推荐商品等),通常需要低延迟和高吞吐量。推理过程可以在云端或边缘设备(如手机、自动驾驶汽车)上进行。

推理模型其最突出的地方在于,在给出回答之前,模型会思考,通过产生一个很长的内部思维链(CoT),逐步推理,模仿人类思考复杂问题的过程。

随着各类大模型的成熟,许多企业和开发者可以直接使用预训练模型,而不需要从头训练。对于特定任务,企业通常只需对预训练模型进行微调,而不需要大规模训练,这减少了对训练算力的需求。预训练时代或许行将落幕,推理正在崛起。

近几日,多家券商研报都指出,算力需求会加速从预训练向推理侧倾斜,推理有望接力训练,成为下一阶段算力需求的主要驱动力。

巴克莱12月的报告预计,AI推理计算需求将快速提升,预计其将占通用人工智能总计算需求的70%以上,推理计算的需求甚至可以超过训练计算需求,达到后者的4.5倍。英伟达GPU目前在推理市场中市占率约80%,但随着大型科技公司定制化ASIC芯片不断涌现,这一比例有望在2028年下降至50%左右。

免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国发话也不行,中方正式通告全球:打日本,中国具备“正当性”

美国发话也不行,中方正式通告全球:打日本,中国具备“正当性”

凤语谈
2026-05-28 12:13:58
一碗隔夜米饭毒死7人?医生警告:米饭尽量别这样吃,比砒霜还毒

一碗隔夜米饭毒死7人?医生警告:米饭尽量别这样吃,比砒霜还毒

路医生健康科普
2026-05-31 20:15:03
于东来反思对员工太包容:员工不值6000元工资,一旦离开胖东来就完了

于东来反思对员工太包容:员工不值6000元工资,一旦离开胖东来就完了

顶级大佬思维
2026-06-12 12:42:48
借贷公司上门催债被反杀,尸体拖上车焚烧,8000元借贷酿双命惨案

借贷公司上门催债被反杀,尸体拖上车焚烧,8000元借贷酿双命惨案

易玄
2026-06-11 15:33:31
克洛泽:我是梅西的粉丝,他能在这届世界杯打破我的进球纪录

克洛泽:我是梅西的粉丝,他能在这届世界杯打破我的进球纪录

懂球帝
2026-06-13 03:17:02
科学家早已确认,在南极几千米厚的冰盖下,还藏着"另一个世界"

科学家早已确认,在南极几千米厚的冰盖下,还藏着"另一个世界"

丁丁鲤史纪
2026-06-12 12:10:51
指鸭为鹅!收割清北骄子的鹅腿阿姨,干嘛非要去招惹国贸牛马?

指鸭为鹅!收割清北骄子的鹅腿阿姨,干嘛非要去招惹国贸牛马?

离离言几许
2026-06-11 18:11:08
台儿庄杂牌军为何弹药充足?晚年孙连仲:全靠三个巧合

台儿庄杂牌军为何弹药充足?晚年孙连仲:全靠三个巧合

历史人文2
2026-06-12 15:00:03
亲兄弟明算账!见菲律宾防长被制裁:美国也不叫了,日本也不跳了

亲兄弟明算账!见菲律宾防长被制裁:美国也不叫了,日本也不跳了

旧窗老街
2026-06-12 22:37:00
翻脸天价!里夫斯拒绝湖人廉价合同,3大球队砸钱疯抢

翻脸天价!里夫斯拒绝湖人廉价合同,3大球队砸钱疯抢

五姑娘台球
2026-06-12 21:46:04
世界杯到底在为谁办?球场空了一半,票价却翻了几倍!

世界杯到底在为谁办?球场空了一半,票价却翻了几倍!

天下足球资讯
2026-06-13 13:17:30
演员陈敏儿去世

演员陈敏儿去世

扬子晚报
2026-06-12 18:49:13
张馨予的老公太阳刚了!生活中显得鹤立鸡群,网友:一副领导样子

张馨予的老公太阳刚了!生活中显得鹤立鸡群,网友:一副领导样子

木子爱娱乐大号
2026-06-12 14:37:42
主教练安切洛蒂确认:内马尔无缘巴西队世界杯首战,预计下周恢复训练

主教练安切洛蒂确认:内马尔无缘巴西队世界杯首战,预计下周恢复训练

环球网资讯
2026-06-13 08:56:16
CCTV5直播!世界杯第2日赛程有变:美国队vs南美劲旅,2悬念待解

CCTV5直播!世界杯第2日赛程有变:美国队vs南美劲旅,2悬念待解

大秦壁虎白话体育
2026-06-12 17:37:04
国乒队内避谈樊振东,王皓请马龙帮忙谈话,向鹏主动请战被拒绝

国乒队内避谈樊振东,王皓请马龙帮忙谈话,向鹏主动请战被拒绝

一口桃
2026-06-13 14:06:39
一年兜底+4nm,比亚迪治好了我的智驾恐惧症

一年兜底+4nm,比亚迪治好了我的智驾恐惧症

酷玩实验室
2026-06-12 12:29:54
比亚迪上演“先有桩后有车”:加拿大一辆没卖,闪充站先建上了

比亚迪上演“先有桩后有车”:加拿大一辆没卖,闪充站先建上了

沙雕小琳琳
2026-06-13 06:12:48
蔚来如何穿越周期?李斌:不赚钱的车型不做了,但底层技术与换电站要坚决投入

蔚来如何穿越周期?李斌:不赚钱的车型不做了,但底层技术与换电站要坚决投入

新浪财经
2026-06-13 14:25:16
上海31岁男幼师溺水身亡,母亲悲痛发声:“难以接受!他明明从小怕水,还计划7月去旅游”当地教育主管部门:正在调查

上海31岁男幼师溺水身亡,母亲悲痛发声:“难以接受!他明明从小怕水,还计划7月去旅游”当地教育主管部门:正在调查

封面新闻
2026-06-13 07:38:11
2026-06-13 14:56:49
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1591262文章数 2726555关注度
往期回顾 全部

科技要闻

SpaceX上市首日破2万亿美元,马斯克再封神

头条要闻

专家:中国制裁外国防长及其亲属极为少见 是杀鸡儆猴

头条要闻

专家:中国制裁外国防长及其亲属极为少见 是杀鸡儆猴

体育要闻

东道主三战不败!美墨开门红加拿大零的突破

娱乐要闻

12年情怀碎一地!跑男接连翻车

财经要闻

梁文锋向左,杨植麟向右

汽车要闻

2026重庆车展 长城炮Hi4-T正式上市售14.98万起

态度原创

游戏
本地
家居
时尚
公开课

前棒鸡员工发声:马拉松绝非失败!它是工作室存亡关键

本地新闻

AK刘彰邂逅河北南大港湿地

家居要闻

空间微调 移形换境

让女明星排队道歉,是内娱的耻辱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版