网易首页 > 网易号 > 正文 申请入驻

国产大模型DeepSeek-V3火爆全球,671B的MoE,训练成本仅558万美元

0
分享至



机器之心报道

机器之心编辑部

今天,一个国产大模型火遍了世界。

打开 X,满眼都是讨论 DeepSeek-V3 的推文,而其中最热门的话题之一是这个参数量高达 671B 的大型语言模型的预训练过程竟然只用了 266.4 万 H800 GPU Hours,再加上上下文扩展与后训练的训练,总共也只有 278.8 H800 GPU Hours。相较之下,Llama 3 系列模型的计算预算则多达 3930 万 H100 GPU Hours—— 如此计算量足可训练 DeepSeek-V3 至少 15 次。



虽然相对于其它前沿大模型, DeepSeek-V3 消耗的训练计算量较少,但其性能却足以比肩乃至更优。

据最新发布的 DeepSeek-V3 技术报告,在英语、代码、数学、汉语以及多语言任务上,基础模型 DeepSeek-V3 Base 的表现非常出色,在 AGIEval、CMath、MMMLU-non-English 等一些任务上甚至远远超过其它开源大模型。就算与 GPT-4o 和 Claude 3.5 Sonnet 这两大领先的闭源模型相比,DeepSeek-V3 也毫不逊色,并且在 MATH 500、AIME 2024、Codeforces 上都有明显优势。



DeepSeek-V3 的惊人表现主要是得益于其采用的 MLA(多头隐注意力)和 DeepSeekMoE 架构。此前,这些技术已经在 DeepSeek-V2 上得到了验证,现在也成为了 DeepSeek-V3 实现高效推理和经济训练的基石。

此外,DeepSeek-V3 率先采用了无辅助损失的负载平衡策略,并设定了多 token 预测训练目标,以实现更强大的性能。他们使用的预训练 token 量为 14.8 万亿,然后还进行了监督式微调和强化学习。

正是在这些技术创新的基础上,开源的 DeepSeek-V3 一问世便收获了无数好评。



Meta AI 研究科学家田渊栋对 DeepSeek-V3 各个方向上的进展都大加赞赏。



著名 AI 科学家 Andrej Karpathy 也表示,如果该模型的优良表现能够得到广泛验证,那么这将是资源有限情况下对研究和工程的一次出色展示。



正在创业(Lepton AI)的著名研究者贾扬清也给出了自己的深度评价。他认为 DeepSeek-V3 的诞生标志着我们正式进入了分布式推理的疆域,毕竟 671B 的参数量已经无法放入单台 GPU 了。



DeepSeek-V3 再一次引爆了人们对开源模型的热情。OpenRouter 表示自昨天发布以来,该平台上 DeepSeek-V3 的使用量已经翻了 3 倍!



一些已经尝鲜 DeepSeek-V3 的用户已经开始在网上分享他们的体验。



接下来我们看技术报告内容。

  • 报告地址:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
  • 项目地址:https://github.com/deepseek-ai/DeepSeek-V3
  • Hugging Face:https://huggingface.co/collections/deepseek-ai/deepseek-v3-676bc4546fb4876383c4208b

架构

为了高效的推理和经济的训练,DeepSeek-V3 采用了用于高效推理的多头潜在注意力(MLA)(DeepSeek-AI,2024c)和用于经济训练的 DeepSeekMoE(Dai et al., 2024),并提出了多 token 预测(MTP)训练目标,以提高评估基准的整体性能。对于其他细节,DeepSeek-V3 遵循 DeepSeekV2(DeepSeek-AI,2024c)的设置。

与 DeepSeek-V2 相比,一个例外是 DeepSeek-V3 为 DeepSeekMoE 额外引入了辅助无损耗负载平衡策略(Wang et al., 2024a),以减轻因确保负载平衡而导致的性能下降。图 2 展示了 DeepSeek-V3 的基本架构:



MTP 将预测范围扩展到每个位置的多个未来 token。一方面,MTP 目标使训练信号更加密集,并且可以提高数据效率。另一方面,MTP 可以使模型预规划其表征,以便更好地预测未来的 token。



预训练

数据构建

与 DeepSeek-V2 相比,V3 通过提高数学和编程样本的比例来优化预训练语料库,同时将多语言覆盖范围扩大到英语和中文之外。此外,新版本对数据处理流程也进行了改进,以最大限度地减少冗余,同时保持语料库的多样性。DeepSeek-V3 的训练语料在 tokenizer 中包含 14.8T 个高质量且多样化的 token。

超参数

模型超参数:本文将 Transformer 层数设置为 61,隐藏层维度设置为 7168。所有可学习参数均以标准差 0.006 随机初始化。在 MLA 中,本文将注意力头 _ℎ 的数量设置为 128,每个头的维度 _ℎ 设置为 128。

此外,本文用 MoE 层替换除前三层之外的所有 FFN。每个 MoE 层由 1 个共享专家和 256 个路由专家组成,其中每个专家的中间隐藏维度为 2048。在路由专家中,每个 token 将激活 8 个专家,并确保每个 token 最多发送到 4 个节点。

与 DeepSeek-V2 一样,DeepSeek-V3 也在压缩潜在向量之后使用了额外的 RMNSNorm 层,并在宽度 bottlenecks 处乘以额外的缩放因子。在这种配置下,DeepSeek-V3 包含总共 671B 个参数,其中每个 token 激活 37B 个。

长上下文扩展

本文采用与 DeepSeek-V2 类似的方法,在 DeepSeek-V3 中启用长上下文功能。在预训练阶段之后,应用 YaRN 进行上下文扩展,并执行两个额外的训练阶段,每个阶段包含 1000 个 step,以逐步将上下文窗口从 4K 扩展到 32K,然后再扩展到 128K。

通过这种两阶段扩展训练,DeepSeek-V3 能够处理长达 128K 的输入,同时保持强劲的性能。图 8 表明,经过监督微调后,DeepSeek-V3 在大海捞针 (NIAH) 测试中取得了显著的性能,在长达 128K 的上下文窗口长度中表现出一致的稳健性。



评估

表 3 将 DeepSeek-V3 的基础模型与 SOTA 性能的开源基础模型进行了比较,包括 DeepSeek-V2-Base、Qwen2.5 72B Base 和 LLaMA-3.1 405B Base。

总体而言,DeepSeek-V3-Base 全面超越 DeepSeek-V2-Base 和 Qwen2.5 72B Base,并在大多数基准测试中超越 LLaMA-3.1 405B Base,基本上成为最强大的开源模型。



具体来说,本文将 DeepSeek-V3-Base 与其他开源基础模型分别进行了比较。

(1)与 DeepSeek-V2-Base 相比,由于模型架构的改进,模型大小和训练 token 的扩大以及数据质量的提升,DeepSeek-V3-Base 取得了预期的、更好的性能。

(2)与目前最先进的中文开源模型 Qwen2.5 72B Base 相比,在激活参数只有其一半的情况下,DeepSeek-V3-Base 也表现出了明显的优势,尤其是在英文、多语言、代码和数学基准测试中。对于中文基准测试,除了中文多学科多项选择题 CMMLU 之外,DeepSeek-V3-Base 也取得了优于 Qwen2.5 72B 的性能。

(3)与目前最大的开源模型 LLaMA-3.1 405B Base(激活参数量是其 11 倍)相比,DeepSeek-V3-Base 在多语言、代码和数学基准测试中也表现出了更好的性能。在英语和中文基准测试中,DeepSeek-V3-Base 表现出了相当或更好的性能,尤其是在 BBH、MMLU-series、DROP、C-Eval、CMMLU 和 CCPM 上表现优异。

由于高效的架构和全面的工程优化,DeepSeekV3 实现了极高的训练效率。基于训练框架和基础设施,在 V3 上训练每万亿个 token 只需要 180K H800 GPU 小时,这比训练 72B 或 405B 密集模型便宜得多。

表 4 展示了 MTP 策略的消融结果,作者在两个不同规模的基线模型上验证了 MTP 策略。从表中我们可以观察到,MTP 策略在大多数评估基准上持续提高了模型性能。



在接下来的文章中,作者介绍了后训练,包括监督微调、强化学习等内容。

了解更多内容,请参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中科院低位布局机器人,重仓买入这几家,机器人纯正龙头

中科院低位布局机器人,重仓买入这几家,机器人纯正龙头

小佩棋不蹦迪
2024-12-27 21:06:55
又一集团爆雷!非法集资超百亿,创始人潜逃,讨薪现场大门紧锁

又一集团爆雷!非法集资超百亿,创始人潜逃,讨薪现场大门紧锁

蜉蝣说
2024-12-27 11:30:10
中午11点!归化首秀确定,伊万再发声,目标=4场拿7分!CCTV5直播

中午11点!归化首秀确定,伊万再发声,目标=4场拿7分!CCTV5直播

美人茶话会
2024-12-27 20:26:49
世上无人再似她

世上无人再似她

花花夜读
2024-12-26 03:12:54
开店150家!丑了34年的“土”大牌,正在“血洗”中国男人钱包

开店150家!丑了34年的“土”大牌,正在“血洗”中国男人钱包

素衣读史
2024-12-27 11:44:19
明明演技一般,却被捧成“老戏骨”,这八位演员终于现出原形了?

明明演技一般,却被捧成“老戏骨”,这八位演员终于现出原形了?

阿裤趣闻君
2024-12-21 23:01:03
中美“主战场”定了?不是南海、也不是台海!美国握最后一张王牌

中美“主战场”定了?不是南海、也不是台海!美国握最后一张王牌

视野聚椒
2024-12-27 15:00:12
2025年,普通老百姓手中有“大量现金”,也变得焦虑?原因有4点

2025年,普通老百姓手中有“大量现金”,也变得焦虑?原因有4点

林小溪一隅
2024-12-26 21:20:02
综合能力远强于新科探花郎!他才是火箭替补控卫的真正人选?

综合能力远强于新科探花郎!他才是火箭替补控卫的真正人选?

稻谷与小麦
2024-12-28 02:04:28
故事:一家4口在景区跳崖,他们只留下1个女儿,还有4亿的欠款

故事:一家4口在景区跳崖,他们只留下1个女儿,还有4亿的欠款

醉爱讲故事
2024-12-26 17:39:43
不装了,乔治突爆争议内幕!令詹姆斯难堪,球迷:没技术不敢单挑

不装了,乔治突爆争议内幕!令詹姆斯难堪,球迷:没技术不敢单挑

阿泰希特
2024-12-27 12:37:39
肠道里长了息肉,上厕所会有3个提示,别等到中晚期了才发现

肠道里长了息肉,上厕所会有3个提示,别等到中晚期了才发现

肿瘤的真相与误区
2024-12-26 19:35:26
最流氓实验:6男4女穿泳衣共度100天,没有法律约束,结果如何?

最流氓实验:6男4女穿泳衣共度100天,没有法律约束,结果如何?

橘子大娱社
2024-12-27 20:30:03
交通运输部:明年计划新建改建农村公路10.5万公里

交通运输部:明年计划新建改建农村公路10.5万公里

每日经济新闻
2024-12-27 15:28:44
俄官员称击落乌方一架F-16战机,乌暂无回应

俄官员称击落乌方一架F-16战机,乌暂无回应

界面新闻
2024-12-27 07:34:37
血本需要加大!第二批朝军参战,取决于俄朝双方的基础KPI

血本需要加大!第二批朝军参战,取决于俄朝双方的基础KPI

大风文字
2024-12-23 12:48:10
死心不息!乱港艺人杜汶泽无片可拍,走火入魔抹黑内地不遗余力

死心不息!乱港艺人杜汶泽无片可拍,走火入魔抹黑内地不遗余力

晴晴给你讲故事
2024-11-30 13:16:20
建议比亚迪公关不要再用「抹黑」之类的叙事

建议比亚迪公关不要再用「抹黑」之类的叙事

挪威Talk
2024-12-27 12:05:06
自作聪明,安徽一学校通知禁止师生过圣诞节,怪不得有“毒教材”

自作聪明,安徽一学校通知禁止师生过圣诞节,怪不得有“毒教材”

眼光很亮
2024-12-25 10:14:10
内蒙古黑老大易连峰调戏一女子,不料女子背景强大,一夜就此覆灭

内蒙古黑老大易连峰调戏一女子,不料女子背景强大,一夜就此覆灭

荔枝人物记
2024-12-23 18:55:24
2024-12-28 04:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
9880文章数 142120关注度
往期回顾 全部

科技要闻

2024年,我国航天发射次数为何不及预期?

头条要闻

家中橙子滞销 男子转战游戏中"销售":24天卖了6000斤

头条要闻

家中橙子滞销 男子转战游戏中"销售":24天卖了6000斤

体育要闻

樊振东和陈梦,为什么不要世界排名了?

娱乐要闻

赵露思深夜坐轮椅就医,新剧被曝停拍

财经要闻

极越汽车败局 吉利控股撤退李书福接盘?

汽车要闻

李想:三个条件足够优秀 能做出苹果一样的公司

态度原创

家居
健康
亲子
旅游
教育

家居要闻

采用中古风格 展现中式古典美学

属于北京的一处精神“乌托邦”宝地

亲子要闻

医院给孕妇用药,转头却举报她们吸毒?!孕妇傻了:明明医生开的药,钓鱼?

旅游要闻

太美了!上海宝藏“点位”走红 官方“攻略”来了

教育要闻

这所学校的学子,凭什么走进全球排名第二的理工强校?

无障碍浏览 进入关怀版