网易首页 > 网易号 > 正文 申请入驻

DeepSeek,大动作!

0
分享至

3月24日晚,DeepSeek发布了模型更新——DeepSeek-V3-0324。本次更新为DeepSeek V3模型的版本更新,并非市场此前一直期待的DeepSeek-V4或R2。目前,其开源版本已上线Hugging Face。据悉,其开源版本模型体积为6850亿参数。

同日,DeepSeek在其官方交流群宣布称,DeepSeek V3模型已完成小版本升级,欢迎前往官方网页、App、小程序试用体验(关闭深度思考),API接口和使用方式保持不变。

此前于2024年12月发布的DeepSeek-V3模型曾以“557.6万美金比肩Claude 3.5效果”的高性价比著称,其多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。但截至目前,还没有任何关于新版DeepSeek-V3的能力基准测试榜单出现。

其后,DeepSeek于2025年1月发布了性能比肩OpenAI o1正式版的DeepSeek-R1模型,该模型在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。

V3是一个拥有6710亿参数的专家混合模型(Moe),其中370亿参数处于激活状态。

在传统的大模型中,通常会采用密集的神经网络结构,模型需要对每一个输入token都会被激活并参与计算,会耗费大量算力。

此外,传统的混合专家模型中,不平衡的专家负载是一个很大难题。当负载不均衡时,会引发路由崩溃现象,这就好比交通拥堵时道路瘫痪一样,数据在模型中的传递受到阻碍,导致计算效率大幅下降。

为了解决这个问题,常规的做法是依赖辅助损失来平衡负载。然而,这种方法存在一个弊端,那就是辅助损失一旦设置过大,就会对模型性能产生负面影响,就像为了疏通交通而设置过多限制,却影响了整体的通行效率。

DeepSeek对V3进行了大胆创新,提出了辅助损失免费的负载均衡策略,引入“偏差项”。在模型训练过程中,每个专家都被赋予了一个偏差项,它会被添加到相应的亲和力分数上,以此来决定top-K路由。

此外,V3还采用了节点受限的路由机制,以限制通信成本。在大规模分布式训练中,跨节点的通信开销是一个重要的性能瓶颈。通过确保每个输入最多只能被发送到预设数量的节点上,V3能够显著减少跨节点通信的流量,从而提高训练效率。

根据国外开源评测平台kcores-llm-arena对V3-0324最新测试数据显示,其代码能力达到了328.3分,超过了普通版的Claude 3.7 Sonnet(322.3),可以比肩334.8分的思维链版本。

每日经济新闻综合公开信息

免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
主角:靠入赘成煤老板的刘四团,为忆秦娥豪掷百万,不过黄粱一梦

主角:靠入赘成煤老板的刘四团,为忆秦娥豪掷百万,不过黄粱一梦

容妃
2026-05-26 16:37:41
5月26日,2026年退休人员基本养老金调整通知发布吗?有好消息吗

5月26日,2026年退休人员基本养老金调整通知发布吗?有好消息吗

小彬说事
2026-05-26 10:48:58
儿童牙膏标着“不能食用”,电商却暗示“可吞咽”?儿童牙膏乱象调查——

儿童牙膏标着“不能食用”,电商却暗示“可吞咽”?儿童牙膏乱象调查——

新京报
2026-05-25 12:12:28
除了不再和雷霆斗气,马刺还做对了三件事,把系列赛拖进天王山

除了不再和雷霆斗气,马刺还做对了三件事,把系列赛拖进天王山

兵哥篮球故事
2026-05-25 18:27:29
报复升级,90枚导弹砸向基辅,普京这一巴掌打醒了全世界

报复升级,90枚导弹砸向基辅,普京这一巴掌打醒了全世界

混沌录
2026-05-25 18:29:40
中央定调!2026年养老金迎来好消息,养老金每月1500元涨3%难吗?

中央定调!2026年养老金迎来好消息,养老金每月1500元涨3%难吗?

社保小达人
2026-05-26 09:27:57
58岁孙浩为林萍守约未娶,81岁母亲成最大牵挂

58岁孙浩为林萍守约未娶,81岁母亲成最大牵挂

大眼妹妹
2026-05-25 11:24:26
第一次感受到“荔枝核的威力”,泡水里20天,长成“粉盆栽”

第一次感受到“荔枝核的威力”,泡水里20天,长成“粉盆栽”

美家指南
2026-05-15 15:27:43
投诉男光膀子不雅?浙江一健身房神操作:禁止所有女性入内!

投诉男光膀子不雅?浙江一健身房神操作:禁止所有女性入内!

尘埃里的看客
2026-05-25 10:28:15
死伤惨重!90枚导弹、600架无人机突袭基辅,榛树导弹击穿乌大楼

死伤惨重!90枚导弹、600架无人机突袭基辅,榛树导弹击穿乌大楼

小嵩
2026-05-26 05:18:35
张雪传记作者拒绝公开道歉+赔偿!回应:我没捏造事实 有权利写你

张雪传记作者拒绝公开道歉+赔偿!回应:我没捏造事实 有权利写你

念洲
2026-05-26 06:57:09
亡国灭种,断子绝孙?欧洲反华先锋立陶宛,正在从地图上消失

亡国灭种,断子绝孙?欧洲反华先锋立陶宛,正在从地图上消失

贱议你读史
2026-05-23 12:07:35
树倒猢狲散!《跑男》郑恺李晨集体停宣,苗苗发声,陈赫真没说谎

树倒猢狲散!《跑男》郑恺李晨集体停宣,苗苗发声,陈赫真没说谎

青杉依旧啊啊
2026-05-26 05:40:43
好莱坞,DEI价值观输出的大本营

好莱坞,DEI价值观输出的大本营

南文视界
2026-05-25 07:20:12
50岁母亲遭儿子长期侵害求助无门,怒而杀子法院判三缓四藏深意

50岁母亲遭儿子长期侵害求助无门,怒而杀子法院判三缓四藏深意

华夏新声
2026-05-15 06:12:32
极目帮办 车租给一女子后对方失联,重庆车主求助媒体寻车

极目帮办 车租给一女子后对方失联,重庆车主求助媒体寻车

极目新闻
2026-05-25 21:42:20
终于通透了!42岁人大硕士相亲,年收入40-50万,唯求“聊得来”

终于通透了!42岁人大硕士相亲,年收入40-50万,唯求“聊得来”

火山詩话
2026-05-25 06:19:58
沪指、深成指跌超1%,半导体产业链全线下挫

沪指、深成指跌超1%,半导体产业链全线下挫

澎湃新闻
2026-05-26 11:24:04
姐姐嫁法国富商,妹妹嫁知名演员,姐妹俩年近50却都是冻龄女神

姐姐嫁法国富商,妹妹嫁知名演员,姐妹俩年近50却都是冻龄女神

往史过眼云烟
2026-05-24 14:25:24
古代通房丫鬟到底有多惨?陪老爷不算,还被用来干一件“恶心”事

古代通房丫鬟到底有多惨?陪老爷不算,还被用来干一件“恶心”事

掠影后有感
2026-05-17 11:00:03
2026-05-26 17:23:00
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1580205文章数 2726272关注度
往期回顾 全部

科技要闻

今年秋季,麒麟芯片将首次落地"逻辑折叠"

头条要闻

外媒称伊朗愿意"将浓缩铀移至中国" 中方回应

头条要闻

外媒称伊朗愿意"将浓缩铀移至中国" 中方回应

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

数码
艺术
本地
时尚
公开课

数码要闻

消息称AMD苏姿丰布局Zen 7:台积电A14工艺、力成FOPLP封装

艺术要闻

画美,文字也美 | 日本著名画家内田正泰

本地新闻

用云锦的方式,打开江苏南京

全网刷屏,华语乐坛“嫡长女”终于来了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版