深度求索开源模型DeepSeek V2性能比肩GPT-4 价格只有GPT-4的1%|算法|大模型|gpt-4|deepseek

深度求索开源模型DeepSeek V2性能比肩GPT-4 价格只有GPT-4的1%

分享至

原本需要投入上亿美元才能训练好的大语言模型，被中国一家初创公司给硬生生地压至数百万美元就能训练出来。

这家来自杭州的初创公司深度求索（DeepSeek）12月26日在微信公众号上宣布全新的开源大模型DeepSeek V3，并大方公布53页的技术论文，披露该模型的所有训练细节及评测结果。

评测显示，上述模型在考察百科知识、代码、数学能力等评测集中得分超过阿里云Qwen2.5-72B和Meta的Llama-3.1-405B这两大开源模型，甚至与世界顶尖的闭源模型GPT-4o及Claude-3.5-Sonnet不分伯仲。

尤其在数学领域，DeepSeek V3在美国数学竞赛（AIME 2024）和中国全国高中数学联赛（CNMO 2024）的表现大幅领先所有开源闭源模型。

深度求索的论文显示，DeepSeek V3（深蓝斜线）在数学领域（左起第三类别）以90.2分的表现，大幅超越所有其他顶尖的开源闭源模型。（论文截屏）

让一众科技大佬震惊的是，拥有如此强大性能的DeepSeek竟不如外界想象的那么昂贵。

低成本大模型

深度求索公布的技术论文显示，DeepSeek V3的训练成本仅557万6000美元（758万新元），这一数字包括前期的预训练、上下文长度扩展及后续的训练阶段。

DeepSeek V3大模型的训练成本比Meta的Llama-3.1还要低10倍以上，图为深度求索公司的图标。（深度求索官网）

DeepSeek V3的训练仅消耗2048张美国科技巨头英伟达特制的弱化版H800晶片，训练总时长也只有278万个GPU小时（即显卡训练LLM所需的处理时间，现实时间约两个月）。

相比之下，Llama-3.1采用1万6000张更先进的H100晶片，都需要训练3080万个GPU小时。单单计算晶片的成本，就至少耗资6.4亿美元。

Open AI创始成员之一卡帕斯（Andrej Karpathy）在社交媒体X上说，按照以往经验，这种能力级别的大模型，通常需要近1万6000张GPU，而目前行业内的模型大多使用约10万张GPU。

他指出：“这看起来是一个很好的证明，显示（我们）在数据和算法方面还有很多工作要做。”

与ChatGPT等模型需要投入极大算力训练资料的强化学习架构（Reinforcement Learning）不同，DeepSeek V3采用了自研混合专家（Mixture of Experts）和多头潜在注意力（Multi-head Latent Attention）架构。

在这一架构下，每个任务会自动分配给不同的专家模型解决，就好比一家公司有多位精通不同领域的专家，如财务、技术、市场等，每位专家只会被分配各自领域的工作，有利于优化算力资源的分配。

据各家媒体和网民的实测，DeepSeek V3基本能回答一些简单的数学问题，如“9.8和9.11哪个大”“strawberry里有多少个r”等基本难不倒它。

《华尔街日报》利用今年AIME的15道题进行测试，发现OpenAI最新的o1模型得出答案的速度比深度求索更快。如一个假设的双人博弈问题需用到策略来解字谜，o1模型在10秒内给出答案，深度求索花了两分多钟。

但报道称，大模型能在首次尝试时就给出正确答案已非常了不起，因为文字题常常难倒AI程序。

广发证券的测试结果显示，DeepSeek V3总体能力与其他大模型相当，在逻辑推理和代码生成领域具有自身特点，但在文本生成和数学计算能力方面，未展现出明显优于其他大模型之处。

不过，有网民发现DeepSeek V3会误称自己是ChatGPT，还说自己是OpenAI在2023年推出的GPT-4版本。甚至让它讲个笑话，生成的结果也和ChatGPT一样。

有网民在DeepSeek V3上测试提问是什么模型时，该模型竟称自己是ChatGPT（右），但目前该模型已能正确回答自己是DeepSeek V3。（互联网）

有舆论质疑DeepSeek V3使用ChatGPT输出内容进行训练，但有分析认为，这很可能是在AI生成内容极速增长的情况下，训练数据被污染所致。深度求索尚未就此回应。

深度求索——AI界的拼多多

深度求索是量化巨头幻方量化2023年4月创立的子公司。与月之暗面、智谱AI、百川智能等获得大厂投资的初创公司不同，深度求索与科技巨头间并无直接关系。在硅谷，深度求索被称为“来自东方的神秘力量”。

事实上，幻方在大模型赛道的布局已久。深度求索原是幻方的AI研究部门，该部门在2021年就持有约1万个英伟达A100显卡，这通常被视为训练大模型的算力门槛。

今年5月，创立刚满一年的深度求索就凭借开源模型DeepSeek V2威震四方。该模型在性能上比肩GPT-4 Turbo，价格却只有GPT-4的百分之一，让深度求索收获“AI界拼多多”的名号。

当时，DeepSeek V2每百万tokens（大模型基本单位，1000个tokens约等于500个汉字）输入价格为1元（人民币，下同，0.19新元）、输出价格为2元，而GPT-4 Turbo每百万tokens的输入／输出价格为72元、217元。

如此白菜价迅速引发一场血雨腥风的大模型价格战，迫使字节跳动、腾讯、百度、阿里巴巴等纷纷跟进。

对于这样的结果，深度求索创始人、80后的梁文锋似乎没有意料到。他表示：“我们不是有意成为一条鲶鱼，只是不小心成了一条鲶鱼，这个价格也是在成本之上稍微有点利润。”

梁文锋称：“我们降价一方面是因为我们在探索下一代模型的结构中，成本先降下来了，另一方面也觉得无论API，还是AI，都应该是普惠的、人人可以用得起的东西。”

大模型的新赛道？

让大模型训练更具性价比，是中国AI企业在特殊的环境下所开拓的一个特别新赛道。

自2023年底以来，越来越多AI开发者开始沿用MoE的架构，以更低廉的成本开发大模型。如腾讯2024年11月发布的大模型混元-Large正是采用了MoE架构，需要的算力仅Meta的十分之一，性能却与Meta的Llama 3.1媲美。

腾讯2024年11月发布开源大模型混元-Large，可在10秒内生成3D大模型。

此外，由阿里巴巴和腾讯支持的初创公司月之暗面则正专注于强化学习，模仿人类的试错过程，这种方法在提高性能方面对算力的要求较低。

大模型训练的背后，是海量的AI晶片和算力的堆砌。然而，美国政府从2022年起禁止中国企业采购先进AI晶片，包括英伟达最先进的H100等AI晶片。

尽管不少迹象显示，许多中国AI开发者已找到途径规避禁令，采购受限的英伟达晶片，如通过与中间商交易或利用海外数据中心。但在算力、资金面临严苛挑战之下，它们或许只能另辟蹊径，更加着力于软件、算法等优化，尝试以“四两拨千斤”之势突破算力的瓶颈。

如今深度求索的例子显示，即便是在无奈之下开辟出的低成本赛道，也能以极快的速度追赶美国领先的AI模型。这或许也是AI技术日新月异发展的一种体现，在AI领域赛道日益拥挤的当下，无论是美国还是中国企业，都没有停下脚步喘息的空间。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

深度求索开源模型DeepSeek V2性能比肩GPT-4 价格只有GPT-4的1%

我戴着摄像头上班，正在帮AI抢走我饭碗

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

唐斯发牌，大头逆袭：骑士跌向残忍夏季

王鹤棣掉粉超20万！代言和作品遭抵制

爆炸致82人遇难 留神峪煤业存违法行为

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

低调传承 温润沉静

用云锦的方式，打开江苏南京

OPPO Reno 16官宣AI键，一键闪记有多强？

伊姐周六热推：电视剧《嫁金枝》；电视剧《大唐迷雾 第一季》......

山西矿难遇难者家属:父亲年过半百我们一直劝他别干了

山西矿难遇难者家属:父亲年过半百我们一直劝他别干了

爆炸致82人遇难留神峪煤业存违法行为

2027款星途瑶光上市把"全球车"标准卷进13万级市场

低调传承温润沉静

伊姐周六热推：电视剧《嫁金枝》；电视剧《大唐迷雾第一季》......