网易首页 > 网易号 > 正文 申请入驻

深度求索开源模型DeepSeek V2性能比肩GPT-4 价格只有GPT-4的1%

0
分享至

原本需要投入上亿美元才能训练好的大语言模型,被中国一家初创公司给硬生生地压至数百万美元就能训练出来。

这家来自杭州的初创公司深度求索(DeepSeek)12月26日在微信公众号上宣布全新的开源大模型DeepSeek V3,并大方公布53页的技术论文,披露该模型的所有训练细节及评测结果。

评测显示,上述模型在考察百科知识、代码、数学能力等评测集中得分超过阿里云Qwen2.5-72B和Meta的Llama-3.1-405B这两大开源模型,甚至与世界顶尖的闭源模型GPT-4o及Claude-3.5-Sonnet不分伯仲。

尤其在数学领域,DeepSeek V3在美国数学竞赛(AIME 2024)和中国全国高中数学联赛(CNMO 2024)的表现大幅领先所有开源闭源模型。

深度求索的论文显示,DeepSeek V3(深蓝斜线)在数学领域(左起第三类别)以90.2分的表现,大幅超越所有其他顶尖的开源闭源模型。(论文截屏)

让一众科技大佬震惊的是,拥有如此强大性能的DeepSeek竟不如外界想象的那么昂贵。

低成本大模型

深度求索公布的技术论文显示,DeepSeek V3的训练成本仅557万6000美元(758万新元),这一数字包括前期的预训练、上下文长度扩展及后续的训练阶段。

DeepSeek V3大模型的训练成本比Meta的Llama-3.1还要低10倍以上,图为深度求索公司的图标。(深度求索官网)

DeepSeek V3的训练仅消耗2048张美国科技巨头英伟达特制的弱化版H800晶片,训练总时长也只有278万个GPU小时(即显卡训练LLM所需的处理时间,现实时间约两个月)。

相比之下,Llama-3.1采用1万6000张更先进的H100晶片,都需要训练3080万个GPU小时。单单计算晶片的成本,就至少耗资6.4亿美元。

Open AI创始成员之一卡帕斯(Andrej Karpathy)在社交媒体X上说,按照以往经验,这种能力级别的大模型,通常需要近1万6000张GPU,而目前行业内的模型大多使用约10万张GPU。

他指出:“这看起来是一个很好的证明,显示(我们)在数据和算法方面还有很多工作要做。”

与ChatGPT等模型需要投入极大算力训练资料的强化学习架构(Reinforcement Learning)不同,DeepSeek V3采用了自研混合专家(Mixture of Experts)和多头潜在注意力(Multi-head Latent Attention)架构。

在这一架构下,每个任务会自动分配给不同的专家模型解决,就好比一家公司有多位精通不同领域的专家,如财务、技术、市场等,每位专家只会被分配各自领域的工作,有利于优化算力资源的分配。

据各家媒体和网民的实测,DeepSeek V3基本能回答一些简单的数学问题,如“9.8和9.11哪个大”“strawberry里有多少个r”等基本难不倒它。

《华尔街日报》利用今年AIME的15道题进行测试,发现OpenAI最新的o1模型得出答案的速度比深度求索更快。如一个假设的双人博弈问题需用到策略来解字谜,o1模型在10秒内给出答案,深度求索花了两分多钟。

但报道称,大模型能在首次尝试时就给出正确答案已非常了不起,因为文字题常常难倒AI程序。

广发证券的测试结果显示,DeepSeek V3总体能力与其他大模型相当,在逻辑推理和代码生成领域具有自身特点,但在文本生成和数学计算能力方面,未展现出明显优于其他大模型之处。

不过,有网民发现DeepSeek V3会误称自己是ChatGPT,还说自己是OpenAI在2023年推出的GPT-4版本。甚至让它讲个笑话,生成的结果也和ChatGPT一样。

有网民在DeepSeek V3上测试提问是什么模型时,该模型竟称自己是ChatGPT(右),但目前该模型已能正确回答自己是DeepSeek V3。(互联网)

有舆论质疑DeepSeek V3使用ChatGPT输出内容进行训练,但有分析认为,这很可能是在AI生成内容极速增长的情况下,训练数据被污染所致。深度求索尚未就此回应。

深度求索——AI界的拼多多

深度求索是量化巨头幻方量化2023年4月创立的子公司。与月之暗面、智谱AI、百川智能等获得大厂投资的初创公司不同,深度求索与科技巨头间并无直接关系。在硅谷,深度求索被称为“来自东方的神秘力量”。

事实上,幻方在大模型赛道的布局已久。深度求索原是幻方的AI研究部门,该部门在2021年就持有约1万个英伟达A100显卡,这通常被视为训练大模型的算力门槛。

今年5月,创立刚满一年的深度求索就凭借开源模型DeepSeek V2威震四方。该模型在性能上比肩GPT-4 Turbo,价格却只有GPT-4的百分之一,让深度求索收获“AI界拼多多”的名号。

当时,DeepSeek V2每百万tokens(大模型基本单位,1000个tokens约等于500个汉字)输入价格为1元(人民币,下同,0.19新元)、输出价格为2元,而GPT-4 Turbo每百万tokens的输入/输出价格为72元、217元。

如此白菜价迅速引发一场血雨腥风的大模型价格战,迫使字节跳动、腾讯、百度、阿里巴巴等纷纷跟进。

对于这样的结果,深度求索创始人、80后的梁文锋似乎没有意料到。他表示:“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼,这个价格也是在成本之上稍微有点利润。”

梁文锋称:“我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。”

大模型的新赛道?

让大模型训练更具性价比,是中国AI企业在特殊的环境下所开拓的一个特别新赛道。

自2023年底以来,越来越多AI开发者开始沿用MoE的架构,以更低廉的成本开发大模型。如腾讯2024年11月发布的大模型混元-Large正是采用了MoE架构,需要的算力仅Meta的十分之一,性能却与Meta的Llama 3.1媲美。

腾讯2024年11月发布开源大模型混元-Large,可在10秒内生成3D大模型。

此外,由阿里巴巴和腾讯支持的初创公司月之暗面则正专注于强化学习,模仿人类的试错过程,这种方法在提高性能方面对算力的要求较低。

大模型训练的背后,是海量的AI晶片和算力的堆砌。然而,美国政府从2022年起禁止中国企业采购先进AI晶片,包括英伟达最先进的H100等AI晶片。

尽管不少迹象显示,许多中国AI开发者已找到途径规避禁令,采购受限的英伟达晶片,如通过与中间商交易或利用海外数据中心。但在算力、资金面临严苛挑战之下,它们或许只能另辟蹊径,更加着力于软件、算法等优化,尝试以“四两拨千斤”之势突破算力的瓶颈。

如今深度求索的例子显示,即便是在无奈之下开辟出的低成本赛道,也能以极快的速度追赶美国领先的AI模型。这或许也是AI技术日新月异发展的一种体现,在AI领域赛道日益拥挤的当下,无论是美国还是中国企业,都没有停下脚步喘息的空间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“感觉她像冰块一样捂不热!”婚后长期分居从未同房,男方无奈提出离婚,要求返还72万婚事花费

“感觉她像冰块一样捂不热!”婚后长期分居从未同房,男方无奈提出离婚,要求返还72万婚事花费

大风新闻
2026-05-24 10:17:06
普京前脚刚离开中国,克宫就坦承中俄有裂痕,我们送出定心丸

普京前脚刚离开中国,克宫就坦承中俄有裂痕,我们送出定心丸

游古史
2026-05-24 17:39:29
中国“捡钱”时代即将来临:如果手里只有10万,试试死咬这两条线

中国“捡钱”时代即将来临:如果手里只有10万,试试死咬这两条线

巢客HOME
2026-05-24 09:35:07
武汉:停止集会、停课、停业

武汉:停止集会、停课、停业

第一财经资讯
2026-05-24 11:51:55
山东高速信息集团因围标串标被暂停军采资格

山东高速信息集团因围标串标被暂停军采资格

齐鲁壹点
2026-05-23 09:41:11
萧旭岑案件调查结果出炉,李德维提出一个要求,将马英九一军

萧旭岑案件调查结果出炉,李德维提出一个要求,将马英九一军

呼呼历史论
2026-05-24 11:10:05
重磅!美伊协议冲击全球!对黄金、原油、A股的影响是什么?

重磅!美伊协议冲击全球!对黄金、原油、A股的影响是什么?

风风顺
2026-05-24 16:25:59
一个非常无奈的现象:城市八九十岁老人活着,基本是在“养”保姆

一个非常无奈的现象:城市八九十岁老人活着,基本是在“养”保姆

蝉吟槐蕊
2026-05-24 17:35:11
两匹马受惊闯入小区 5岁女童被缰绳绕颈拖行近2公里身亡 女童妈妈:跑不过马,好绝望

两匹马受惊闯入小区 5岁女童被缰绳绕颈拖行近2公里身亡 女童妈妈:跑不过马,好绝望

闪电新闻
2026-05-24 12:38:27
皇马全员开宝马打卡上班,唯独这位大佬开法拉利搞特殊!

皇马全员开宝马打卡上班,唯独这位大佬开法拉利搞特殊!

仰卧撑FTUer
2026-05-24 10:52:52
蓝营集体跳船,郑丽文想不到,大戏没上演,等来了蒋万安6字绝杀

蓝营集体跳船,郑丽文想不到,大戏没上演,等来了蒋万安6字绝杀

闻识
2026-05-24 05:03:07
武契奇抵京:这无疑是我政治生涯中最重要的一次访问

武契奇抵京:这无疑是我政治生涯中最重要的一次访问

政知新媒体
2026-05-24 15:33:48
两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,做好这6点

两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,做好这6点

三农老历
2026-04-13 17:10:06
CBA新消息!徐杰离开国家队,郑永刚从深圳离职,孙铭徽脚伤加重

CBA新消息!徐杰离开国家队,郑永刚从深圳离职,孙铭徽脚伤加重

中国篮坛快讯
2026-05-24 11:10:11
禁止参展!32克拉国产粉钻成交后,美方坐不住了:河南钻不许展出

禁止参展!32克拉国产粉钻成交后,美方坐不住了:河南钻不许展出

果壳
2026-05-24 15:55:05
燃气公司上门安检,根本不是查漏气!真实目的其实是这3个

燃气公司上门安检,根本不是查漏气!真实目的其实是这3个

小影的娱乐
2026-05-23 20:32:29
男子从小蹲着尿,发现无法行房后紧急求医!医生:每300个男孩就有1个中招

男子从小蹲着尿,发现无法行房后紧急求医!医生:每300个男孩就有1个中招

新浪财经
2026-05-24 17:06:37
杜江霍思燕为妈妈庆祝70大寿,杜江晒霍思燕与妈妈合照

杜江霍思燕为妈妈庆祝70大寿,杜江晒霍思燕与妈妈合照

韩小娱
2026-05-24 18:12:38
新政撕了户口本最后的特权!用大白话捋一捋,看户口本如何滚蛋

新政撕了户口本最后的特权!用大白话捋一捋,看户口本如何滚蛋

鲁八两
2026-05-23 14:19:40
漳州杨梅再添扎心细节:果子烂在树上,果农蹲在地头哭

漳州杨梅再添扎心细节:果子烂在树上,果农蹲在地头哭

天天热点见闻
2026-05-23 08:42:39
2026-05-24 19:11:00
周军律师聊案子 incentive-icons
周军律师聊案子
普及法律常识,帮您维护权益。
3990文章数 951关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

爆炸致82人遇难 留神峪煤业存违法行为

汽车要闻

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

家居
本地
数码
时尚
公开课

家居要闻

低调传承 温润沉静

本地新闻

用云锦的方式,打开江苏南京

数码要闻

OPPO Reno 16官宣AI键,一键闪记有多强?

伊姐周六热推:电视剧《嫁金枝》;电视剧《大唐迷雾 第一季》......

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版