网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

显卡可能没那么重要了？中国公司给硅谷好好上了一课。

2025-01-03 00:05:23　来源: 差评XPIN

浙江举报

0

分享至

我是万万没想到，就在西方还沉浸在圣诞假期，疯狂 “ 过年 ” 的时候，咱们中国企业给人家放了个新年二踢脚，给人家脑瓜子崩得嗡嗡得。

前有宇树科技的机器狗视频让大家惊呼，还要啥波士顿动力。

紧接着又来了个国产大模型 DeepSeek，甚至有股做空英伟达的味道。

具体咋回事儿，咱给你唠明白咯。

前几天， DeepSeek 刚刚公布最新版本 V3 ，注意，与大洋彼岸那个自称 Open ，却越来越 Close 的公司产品不同，这个 V3 是开源的。

不过开源还不是他最重要的标签， DeepSeek-V3 （以下简称 V3 ）还兼具了性能国际一流，技术力牛逼，价格击穿地心三个特点，这一套不解释连招打得业内大模型厂商们都有点晕头转向了。

V3 一发布， OpenAI 创始成员 Karpathy 直接看嗨了，甚至发出了灵魂提问，难道说大模型们压根不需要大规模显卡集群？

我估计老黄看到这头皮都得发麻了吧。

同时， Meta 的 AI 技术官也是直呼DeepSeek 的成果伟大。

知名 AI 评测博主 Tim Dettmers ，直接吹起来了，表示 DeepSeek 的处理优雅 “elegant” 。

而在这些技术出身的人，看着 V3 的成绩送去赞扬的时候，也有些人急了。

比如奥特曼就搁那说，复制比较简单啦，很难不让人觉得他在内涵 DeepSeek 。

更有意思的是，做到这些的公司既不是什么大厂，也不是纯血 AI 厂商。

DeepSeek 公司中文名叫深度求索，他们本来和 AI 没任何关系。

就在大模型爆火之前，他们其实是私募机构幻方量化的一个团队。

而深度求索能够实现弯道超车，既有点必然，也好像有点运气的意思。

早在 2019 年，幻方就投资 2 亿元搭建了自研深度学习训练平台 “ 萤火虫一号 ” ，到了 2021 年已经买了足足 1 万丈英伟达 A100 显卡的算力储备了。

要知道，这个时候大模型没火，万卡集群的概念更是还没出现。

而正是凭借这部分硬件储备，幻方才拿到了 AI 大模型的入场券，最终卷出了现在的 V3 。

你说好好的一个量化投资领域的大厂，干嘛要跑来搞 AI 呢？

深度求索的 CEO 梁文锋在接受采访的时候给大家聊过，并不是什么看中 AI 前景。

而是在他们看来， “通用人工智能可能是下一个最难的事之一” ，对他们来说， “ 这是一个怎么做的问题，而不是为什么做的问题。 ”

就是抱着这么股 “ 莽 ” 劲，深度求索才搞出了这次的大新闻，下面给大家具体讲讲 V3 有啥特别的地方。

首先就是性能强悍，目前来看，在 V3 面前，开源模型几乎没一个能打的。

还记得去年年中，小扎的 Meta 推出模型 Llama 3.1 ，当时就因为性能优秀而且开源，一时间被捧上神坛，结果在 V3 手里，基本是全面落败。

而在各种大厂手里的闭源模型，那些大家耳熟能详的什么 GPT-4o 、 Claude 3.5 Sonnet 啥的， V3 也能打得有来有回。

你看到这，可能觉得不过如此，也就是追上了国际领先水平嘛，值得这么吹吗？

残暴的还在后面。

大家大概都知道了，现在的大模型就是一个通过大量算力，让模型吃各种数据的炼丹过程。

在这个炼丹期，需要的是大量算力和时间往里砸。

所以在圈子里有了一个新的计量单位 “GPU 时 ” ，也就是用了多少块 GPU 花了多少个小时的训练时间。

GPU 时越高，意味着花费的时间、金钱成本就越高，反之就物美价廉了。

前面说的此前开源模型王者， Llama 3.1 405B ，训练周期花费了 3080 万 GPU 时。

可性能更强的 V3 ，只花了不到 280 万 GPU 时。

以钱来换算， DeepSeek 搞出 V3 版本，大概只花了 4000 多万人民币。

而 Llama 3.1 405B 的训练期间， Meta 光是在老黄那买了 16000 多个 GPU ，保守估计至少都花了十几亿人民币。

至于另外的那几家闭源模型，动辄都是几十亿上百亿大撒币的。

你别以为 DeepSeek 靠的是什么歪门邪道，人家是正儿八经的有技术傍身的。

为了搞清楚 DeepSeek 的技术咋样，咱们特地联系了语核科技创始人兼 CTO 池光耀，他们主力发展企业向的 agent 数字人，早就是 DeepSeek 的铁粉了。

池光耀告诉我们，这次 V3 的更新主要是 3 个方面的优化，分别是通信和显存优化、推理专家的负载均衡以及FP8 混合精度训练。

各个部分怎么实现的咱也就不多说了，总体来说，大的整体结构没啥变化，更多的像是咱们搞基建的那一套传统艺能，把工程做得更高效、更合理了。

首先， V3 通过通信和显存优化，极大幅度减少了资源空闲率，提升了利用效率。

而推理专家（具备推理能力的 AI 系统或算法，能够通过数据分析得出结论）的负载均衡就更巧妙了，一般的大模型，每次启动，必须把所有专家都等比例放进工位（显存），但真正回答用户问题时，十几个专家里面只用到一两个，剩下的专家占着工位（显存）摸鱼，也干不了别的事情。

而 DeepSeek 把专家分成热门和冷门两种，热门的专家，复制一份放进显存，处理热门问题；冷门的专家也不摸鱼，总是能被分配到问题。

FP8 混合精度训练则是在之前被很多团队尝试无果的方向上拓展了新的一步，通过降低训练精度以降低训练时算力开销，但却神奇地保持了回答质量基本不变。

也正是这些技术上的革新，才得到了大模型圈的一致好评。

通过一直以来的技术更新迭代， DeepSeek 收获的回报也是相当惊人的。

他们 V3 版本推出后，他们的价格已经是低到百万次几毛钱、几块钱。

他们甚至还在搞了个新品促销活动，到明年 2 月 8 号之前，在原来低价的基础上再打折。

而一开始提到同样开源的 Claude 3.5 Sonnet ，每百万输入输出，至少都得要几十块以上。。。

更要命的是，这对 DeepSeek 来说已经是常规套路了。

早在去年初，DeepSeek V2 模型发布后，就靠着一手低价，被大家叫做了AI界拼多多。

他们还进一步引发了国内大模型公司的价格战，诸如智谱、字节、阿里、百度、腾讯等大厂纷纷降价。

池光耀也告诉我们，他们公司早在去年 6 、 7 月份就开始用上了 DeepSeek ，当时也有国内其他一些大模型厂商来找过他们。

但和 DeepSeek 价格差不多的，模型“ 又太笨了，跟 DeepSeek 不在一个维度” ；如果模型能力和 DeepSeek 差不多，那个价格 “基本都是 10 倍以上” 。

更夸张的是，由于技术 “ 遥遥领先 ” 带来的降本增效，哪怕 DeepSeek 卖得这么便宜，根据他们创始人梁文峰所说，他们公司还是赚钱的。。。是不是有种隔壁比亚迪搞 998 ，照样财报飘红的味道了。

不过对于我们普通用户来说， DeepSeek 似乎也有点偏门了。

因为他的强项主要是在推理、数学、代码方向，而多模态和一些娱乐化的领域不是他们的长处。

而且眼下，尽管 DeepSeek 说自己还是赚钱的，但他们团队上上下下都有股极客味，所以他们的商业化比起其他厂商就有点弱了。

但不管怎么说， DeepSeek 的成功也证明了，在 AI 这个赛道还存在的更多的可能。

按以前的理解，想玩转 AI 后面没有个金主爸爸砸钱买显卡，压根就玩不转。

但现在看起来，掌握了算力并不一定就是掌握了一切。

我们不妨期待下未来，更多的优化出现，让更多的小公司、初创企业都能进入 AI 领域，差评君总感觉，那才是真正的 AI 浪潮才对。

撰文：八戒

编辑：江江 & 面线

美编：焕妍

图片、资料来源：

X

DeepSeek 官网

暗涌：揭秘 DeepSeek：一个更极致的中国技术理想主义故事

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

曾经的真旗舰笔记本没了！准系统电脑彻底凉凉，你用过吗？

雷科技 2024-07-25 11:33:18
0 跟贴 0
为了玩《黑神话：悟空》，我竟然自学了组装电脑？ | 钛极客

钛媒体APP 2024-08-22 10:07:19
0 跟贴 0

小米平板能运行PC应用了？模拟器发威，米粉喜大普奔

雷科技 2025-01-02 15:35:24
2 跟贴 2

体验了Rokid AR Lite，我要和iPad Pro说拜拜

雷科技 2024-09-18 22:29:50
0 跟贴 0
VAIO SX14-R 体验：碳纤维的艺术，轻到极致

爱范儿 2024-12-06 17:03:24
0 跟贴 0

下给英伟达的新年战书，“小”芯片公司们喜迎2025年

钛媒体APP 2025-01-03 16:11:37
38 跟贴 38

论文登计算机体系结构顶会,芯片架构成为边缘AI最佳并行计算选择

机器之心Pro 2024-08-13 15:05:29
1 跟贴 1
AI Phone：先是芯片，再是模型，最后才是手机厂商

钛媒体APP 2024-11-08 19:44:25
0 跟贴 0

“科技春晚”CES来袭！聚焦四大看点：英伟达或进军AI PC市场，AI眼镜将站“C位”

每日经济新闻 2025-01-04 16:14:04
46 跟贴 46
CES前瞻：芯片大厂新品齐出千余家中企亮相

财联社 2025-01-05 03:24:12
1 跟贴 1
爆红的“内插帧”技术是手机游戏的未来？实测一番后我知道了真相

雷科技 2024-12-31 15:31:21
1 跟贴 1
乌军拟利用无人机海量视频训练AI模型辅助战场决策，有何作用？

李莉说 2025-01-02 19:12:00
138 跟贴 138
是什么促进了硅谷的繁荣？王小毅教授美西访学解读

每日经济新闻 2024-10-28 14:54:11
0 跟贴 0
超级婴儿在硅谷降生，基因也能DIY了？

华商韬略 2024-09-11 18:32:10
0 跟贴 0
摄影师3.5万在北海道买170平米房子朋友：正常价20万

上游新闻 2025-01-04 17:06:31
21320 跟贴 21320
对话极氪杨大成：征服美国硅谷的中国科技公司

凤凰网财经 2025-01-02 15:16:28
1 跟贴 1
巴铁不装了！巴老弟和阿富汗直接杠上了，美西方一脸问号！

国平大视野 2025-01-04 13:07:12
0 跟贴 0
2025年第2天！美国收噩耗！中国送上制裁大礼！禁止美用这项技术

AI次世代 2025-01-04 11:31:23
117 跟贴 117
A花被推一脸！这是撞上了什么？

天天竞技 2025-01-04 12:02:55
0 跟贴 0
空警3000首飞成功，中国预警机下一次迭代的方向会是什么

刘晓非说 2025-01-02 16:30:00
30 跟贴 30
伊朗人都在等待哈梅最后消息！唯有八旗子弟革命卫队不愿接受现实

大风文字 2025-01-04 16:57:35
8626 跟贴 8626
阿珍爱上了阿寒嫌犯逃亡路上遇到爱情

天浩电影V 2025-01-03 17:03:02
3 跟贴 3
老鹰捕猎老鼠，取肉技术太熟练，智商高到怀疑人假扮的！

海报搞笑社 2025-01-04 11:03:00
1 跟贴 1
中国“六代机”，只是个模型？！

主持人璐璐lu 2025-01-03 16:22:35
0 跟贴 0
苹果降价抢市场网友：你不买我不买应该还能降800

参考消息 2025-01-02 18:35:53
7818 跟贴 7818
孩子闹着要玩具，爷爷用夹子制作模型，网友：大爷快教我

青州融媒 2025-01-04 10:16:17
8 跟贴 8
新年一开始，普京下令加强和中国合作，盯上了美国的头号泡沫

允华说 2025-01-04 16:53:11
0 跟贴 0
中国和印度算法对比，不到最后一刻不相信，真是没对比就没伤害！

宗介爱搞笑 2025-01-04 13:42:04
0 跟贴 0
波罗的海已无生存空间，如果俄国再丢了克里米亚，将无法恢复祖业

历史摆渡 2025-01-04 20:25:02
2110 跟贴 2110
塑料瓶还可以这样用，以后在墙上钻孔就不会搞到地上了

赵家好兄弟 2025-01-04 11:42:42
0 跟贴 0
印度和国内数学算法比拼，这样看很明显，我们学的简单很多！

乌龟爱搞笑 2025-01-03 13:14:30
4 跟贴 4
巨头们扎堆搞了一年，今天AI PC到底好不好用？

智东西 2025-01-03 19:18:12
55 跟贴 55
AMD“硬刚”英伟达！

每日经济新闻 2024-10-11 19:42:48
0 跟贴 0
国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

量子位 2024-12-27 15:54:35
0 跟贴 0
湖人射落老鹰勒布朗30+8再迎里程碑浓眉18+19

网易体育 2025-01-04 13:55:24
7039 跟贴 7039
国家一级保护动物野牛混进家牛群10余年村民:赶不走

动态新闻 2025-01-05 02:12:33
2869 跟贴 2869
俄“索伦兵”太猛了，肉搏战中徒手夺取乌军短刀，6分钟完成反杀

御风观察 2025-01-03 17:44:17
1617 跟贴 1617
有一种冷是觉得冷，穿上了姥姥给的棉裤，这个冬天将不再寒冷

童话鹤壁 2025-01-03 17:09:09
2 跟贴 2
没有显卡，大模型会怎样？

量子位 2024-07-24 16:58:37
0 跟贴 0
"蛇钞蛇币"兑换火爆有人拿到转手就卖

鲁中晨报 2025-01-04 13:44:23
4092 跟贴 4092

突发！法国七辆氢动力公交车起火，一辆公交车的单价接近70万欧元

突发！法国七辆氢动力公交车起火，一辆公交车的单价接近70万欧元

二向箔

2025-01-04 22:32:05

闹剧！尹锡悦躺在床上收看“逮捕尹锡悦”的直播，甚至逮捕没成功

闹剧！尹锡悦躺在床上收看“逮捕尹锡悦”的直播，甚至逮捕没成功

派大星纪录片

2025-01-04 15:33:32

双体航母即将问世，能搭载160架歼20，真正的大国重器

双体航母即将问世，能搭载160架歼20，真正的大国重器

常高俊April工作室

2025-01-02 22:05:32

梁晓声：阶层决定生存法则，底层靠能力，中层靠关系，高层靠血缘

梁晓声：阶层决定生存法则，底层靠能力，中层靠关系，高层靠血缘

清风拂心

2025-01-04 15:15:03

触目惊心！北京某小区三个月涨了200万，炒房客哭了

触目惊心！北京某小区三个月涨了200万，炒房客哭了

巢客HOME

2025-01-05 05:10:03

43岁范冰冰范冰冰饭局照流出，喝酒还吐舌头，网友：真实可爱！

43岁范冰冰范冰冰饭局照流出，喝酒还吐舌头，网友：真实可爱！

乌娱子酱

2025-01-05 00:34:05

巴特勒禁赛首场！热火最多落后43分惨负爵士阿德巴约6中0

巴特勒禁赛首场！热火最多落后43分惨负爵士阿德巴约6中0

醉卧浮生

2025-01-05 11:33:14

东大的实力其实已经被巴基斯坦，塞尔维亚和伊朗叙利亚证明了。

东大的实力其实已经被巴基斯坦，塞尔维亚和伊朗叙利亚证明了。

沧海一书客

2025-01-04 15:39:37

121名小学生感染，官方通报！这种病毒仍在高发，酒精消毒无效…上海华山医院提醒→

121名小学生感染，官方通报！这种病毒仍在高发，酒精消毒无效…上海华山医院提醒→

上观新闻

2025-01-04 22:05:47

太疯狂！全球都在准备中国新年？德国人凌晨4点排队抢中国烟花…

太疯狂！全球都在准备中国新年？德国人凌晨4点排队抢中国烟花…

魏家东

2025-01-04 08:02:33

枢密院十号：乌军自曝，“北约旅”崩了……

枢密院十号：乌军自曝，“北约旅”崩了……

环球网资讯

2025-01-04 23:37:12

男子为证明被蟒蛇吞入腹中，能否用手里的刀逃脱，主动投喂巨蟒，结果出乎意料

男子为证明被蟒蛇吞入腹中，能否用手里的刀逃脱，主动投喂巨蟒，结果出乎意料

神奇故事

2025-01-04 23:38:51

官方公布国家级经开区最新考核排名（附名单）

官方公布国家级经开区最新考核排名（附名单）

新京报政事儿

2025-01-05 11:32:51

年轻人开始流行将黄金贴在手机上 0.01克黄金成硬核年货

年轻人开始流行将黄金贴在手机上 0.01克黄金成硬核年货

大象新闻

2025-01-04 22:24:34

西安一网红冰瀑冰挂坠落致1人受伤，相关部门：属“野景区”，已封控

西安一网红冰瀑冰挂坠落致1人受伤，相关部门：属“野景区”，已封控

上游新闻

2025-01-05 10:14:07

台湾高层称：俄已受重创，中国大陆已不敢轻易攻台，台民众不天真

台湾高层称：俄已受重创，中国大陆已不敢轻易攻台，台民众不天真

说天说地说实事

2025-01-05 06:36:40

再说一次！这是北京西二旗地铁站

再说一次！这是北京西二旗地铁站

北京海淀

2025-01-04 16:06:40

村干部陆秀兴，递补为省委委员

新京报政事儿

2025-01-05 09:39:31

太难得！网传黄石一企业放长假，发基本工资4000，缴纳社保公积金

太难得！网传黄石一企业放长假，发基本工资4000，缴纳社保公积金

火山诗话

2025-01-04 06:24:05

太不可思议！韩国财阀公子在上海一顿饭吃了56万元！

太不可思议！韩国财阀公子在上海一顿饭吃了56万元！

小人物看尽人间百态

2025-01-04 19:21:26

用知识和观点Debug the world！

8253文章数 487830关注度

往期回顾全部

数码要闻

2024年度数码好物大赏【年度评选】

头条要闻

牛弹琴:美日吵起来日方警告拜登"谁还敢来投资美国"

头条要闻

牛弹琴:美日吵起来日方警告拜登"谁还敢来投资美国"

体育要闻

曼城4-1西汉姆迎英超2连胜哈兰德双响

娱乐要闻

闹大！姜尘语音实锤张颂文公开细节

财经要闻

商汤重组后海外收缩正缩减新加坡办公室

科技要闻

中国政府拟限制磷酸铁锂技术出口

汽车要闻

10万元级无图智驾悦也PLUS全路况实测

态度原创

健康

家居

亲子

数码

公开课

抑郁症患者称好的“乌托邦”宝地

家居要闻

素色现代开启简洁生活

亲子要闻

10个月学会上床的宝宝能有什么坏心思呢？无非就是想展示下她的新技能！

数码要闻

华为 FreeBuds 5 无线耳机获鸿蒙 HarmonyOS 5.0.0.208 升级

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版