网易首页 > 网易号 > 正文 申请入驻

美AI公司万字檄文施压白宫加强管制,质疑DeepSeek或使用禁运芯片

0
分享至

当地时间 1 月 30 日,美国 AI 公司 Anthropic 的 CEO 达里奥·阿莫迪(Dario Amodei)在个人博客发表“万字檄文”,指出对于 DeepSeek 的崛起,美国白宫应该加强管制。

达里奥·阿莫迪博文核心观点:不应将技术优势拱手让给中国

达里奥·阿莫迪(Dario Amodei)写道:“我暂且不讨论 DeepSeek 是否对 Anthropic 等美国 AI 企业构成威胁,尽管我认为许多关于 DeepSeek 威胁美国 AI 领导地位的说法被严重夸大了。我更关注的是,DeepSeek 的成果发布是否削弱了美国芯片出口管制政策的合理性。我的看法是否定的。事实上,我认为 DeepSeek 的进展反而令出口管制政策显得比一周前更加重要。出口管制服务于一个至关重要的目标:确保民主国家在 AI 发展中保持领先地位。需要明确的是,出口管制并不是逃避美中竞争的手段。如果美国和其他民主国家的 AI 公司想要最终胜出,就必须开发出比中国更卓越的模型。但是,在力所能及的情况下,我们不应将技术优势拱手让给中国。”

此外,达里奥·阿莫迪(Dario Amodei)还怀疑 DeepSeek 使用了禁运芯片。他写道:“DeepSeek AI 芯片舰队的很大一部分似乎是由以下芯片组成:尚未被禁止的芯片(但应该被禁止)、在被禁止之前发货的芯片以及一些非常可能走私来的芯片。这表明出口管制实际上正在发挥作用并正在进行自适应:(因为)漏洞正在被堵塞。否则,他们很可能拥有全部由顶级的 H100 组成的芯片舰队。如果我们能够足够快地堵塞漏洞,我们或许能够阻止中国获得数百万块芯片,从而增加美国领先的单极世界出现的可能性。”

但他同时指出:“DeepSeek-V3 实际上是一项真正的创新,一个月前就应该引起人们的注意(我们当然注意到了)。作为一款预训练模型,它在某些重要任务上的表现似乎已接近美国最先进的模型水平,但训练成本却大大降低(尽管我们发现 Claude 3.5 Sonnet 在编程等关键任务上依旧明显更胜一筹)。DeepSeek 团队通过一些十分令人印象深刻的创新实现了这一点,同时这些创新主要集中在工程效率上。特别是在‘键值缓存(Key-Value cache)’的管理上以及推动‘混合专家(MOE,mixture of experts)’方法的使用上,DeepSeek 团队取得了创新性的改进。”

尽管肯定了 DeepSeek 的进步,但是达里奥·阿莫迪(Dario Amodei)似乎不以为然,他在上述博文中还表示:“总而言之,DeepSeek-V3 并非一项独特的突破,也并非从根本上改变了大模型的经济性;它只是持续成本降低曲线上一个预期的点。这次的不同之处在于,第一个展示预期成本降低的公司是中国公司。这在以前从未发生过,并且具有地缘政治意义。然而,美国公司很快也会效仿——而且他们不会通过复制 DeepSeek 来做到这一点,而是因为降低成本也是这些公司的发展趋势。”

苹果联合 MIT 揭示 DeepSeek 背后秘密

无独有偶,近期苹果公司的一项研究提出了类似的观点。五位苹果公司的 AI 研究人员联合美国麻省理工学院(MIT)的一名研究人员发表了一篇论文,该论文也提及了混合专家(MOE,mixture of experts)这一方法,并揭示了 DeepSeek 背后的秘密,即其利用稀疏性在给定的计算能力下获得更好的结果,也就是说利用稀疏性来从芯片中榨取更多价值。

稀疏性有多种表现形式。有时,稀疏性会消除 AI 使用的部分数据,因为这些数据不会对模型的输出产生实质性影响。如果这样做不会影响到最终结果,那么它就会涉及到切断神经网络的整个部分。而 DeepSeek 正是采用了神经网络的“简约使用”方式。

在这篇论文中,苹果的研究人员表示他们使用一款名为 MegaBlocks 的代码库进行研究。同时,他们明确表示,本次研究结论也能用于解释 DeepSeek 的模型原理。

其在论文中表示,在增加稀疏性的同时,当按比例地扩大参数总数时,那么即使在固定训练计算预算的限制下,也能持续降低预训练损失(预训练损失指的是神经网络的准确度。一般来说,训练损失越低,结果越准确)。

在这篇论文中,苹果的研究人员研究了参数和每个示例的计算之间的最佳权衡,以便实现模型容量的最大化。

通过此,他们发现:

首先,在预训练期间,通过添加更多参数来增加模型容量,要比增加每个示例的 FLOP 带来的好处更大。研究人员观察到,随着训练预算的增加(以总 FLOP 来衡量),计算优化模型的大小会增加,而计算优化模型的有效参数数量(与每个示例的 FLOP 有关)会减少。

其次,在推理过程中,每个示例的 FLOP 似乎发挥着更重要的作用。在多个任务之中,上游任务性能都可以很好地预测下游任务性能,并且上游性能和下游性能之间的关系不受稀疏性的影响。然而,苹果的研究人员观察到:同等条件之下,稀疏模型即参数量较少的模型,在特定类型的下游任务上表现较差。这说明要想完成这些任务,模型可能需要更多的“推理”训练。

同时,这一研究结果也与之前关于混合专家扩展法则(MoE Scaling Laws)的相关研究结果保持一致。这表明在预训练过程中,增加稀疏性水平的确可以提高性能和效率。考虑到根据任务或示例复杂性,可以自适应地增加推理过程中每个示例的计算量,因此苹果的研究人员认为通过增加稀疏性来降低单位计算成本的 MoE 方法具有很大的前景,因为它们或许能够提高预训练效率和推理效率。

这也表明:在训练计算预算受限时,作为控制 MoE 中每个示例 FLOP 的“旋钮”,稀疏性是一个能够优化模型性能的强大机制。通过平衡参数总数、计算和稀疏性,可以更有效地扩展 MoE。苹果的研究人员在论文中表示,他们在实验中引入 MoE 是为了在不显著增加推理成本的情况下增加模型容量。而论文中的实验结果也表明,在总训练计算预算固定的情况之下,增加 MoE 中的稀疏性不仅可以减少每个示例的 FLOP,还能增加参数数量以及降低预训练损失。

换句话说,在使用 MoE 的前提之下,如果对于参数总数没有限制,并且希望能够降低预训练损失,那么通过参数计数增加模型的容量可能是一个最优策略。另一方面,稠密模型在一些任务上会表现出更好的性能转移,因为这些任务可能依赖对于输入的更深层次的处理,而不是依赖存储在模型参数中的知识。

事实上,稀疏性在 AI 研究中并不新鲜,也的确并非一种工程新方法。使用大模型的其中一些总参数并关闭其余参数的能力,是稀疏性应用的案例之一,这种稀疏性会对模型的计算预算产生重大影响。多年来,AI 研究人员一直在证明,当消除神经网络的某些部分时,将能以更少的努力实现同等甚至更好的准确性。

英伟达的竞争对手英特尔多年来一直将稀疏性视为实现该领域技术突破的关键途径。近年来,一些初创公司的模型基于稀疏性的方法也在行业基准上获得了高分。稀疏性的神奇作用意义深远,因为它不仅可以为小预算模型带来更大的经济效益(如 DeepSeek),还可以反过来发挥作用:即在花更多的钱的同时,巧妙利用稀疏性来得到更好的收益。正因此,预计将有更多人加入进来复制 DeepSeek 的成功。

参考资料:

https://www.zdnet.com/article/apple-researchers-reveal-the-secret-sauce-behind-deepseek-ai/

https://arxiv.org/pdf/2501.12370

https://darioamodei.com/on-deepseek-and-export-controls

排版:Euodia

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白酒再次被关注!医生发现:心梗病人喝白酒身体将迎来3个坏变化

白酒再次被关注!医生发现:心梗病人喝白酒身体将迎来3个坏变化

芹姐说生活
2026-05-26 14:22:42
家住深圳65楼,已经崩溃了,日子没法过了!

家住深圳65楼,已经崩溃了,日子没法过了!

科学发掘
2026-05-26 12:24:47
中国人不买了!在华暴跌48%大溃败,谁亲手终结了本田神话?

中国人不买了!在华暴跌48%大溃败,谁亲手终结了本田神话?

胖福的小木屋
2026-05-25 11:46:31
“性暗示”粉木耳爆了,盒马吓了全网一跳

“性暗示”粉木耳爆了,盒马吓了全网一跳

李东阳朋友圈
2026-05-26 13:41:05
军委想让邓华指挥对越自卫反击战,邓华婉拒:不能耽误国家大事

军委想让邓华指挥对越自卫反击战,邓华婉拒:不能耽误国家大事

大运河时空
2026-05-25 17:15:03
骑士阵容大清洗在即!阿特金森亲口承认,米切尔哈登表态愿留队

骑士阵容大清洗在即!阿特金森亲口承认,米切尔哈登表态愿留队

奕辰说球
2026-05-26 17:08:50
海外,AI龙头暴跌40%!

海外,AI龙头暴跌40%!

君临财富
2026-05-26 17:51:55
太阳报:阿森纳球员在夜总会时遇到热刺球员,随后一起狂欢

太阳报:阿森纳球员在夜总会时遇到热刺球员,随后一起狂欢

懂球帝
2026-05-26 00:52:08
原版身材就是顶!伊芙体模亲自下场cos

原版身材就是顶!伊芙体模亲自下场cos

奶凶的小霸王
2026-05-26 15:47:03
要打?奉陪到底!中方出手,明确拒绝收回港口租约,澳防长表异议

要打?奉陪到底!中方出手,明确拒绝收回港口租约,澳防长表异议

阿策聊实事
2026-05-26 03:32:31
太难了!成都选调生拟录用名单出炉:总人数跌破100!

太难了!成都选调生拟录用名单出炉:总人数跌破100!

音乐时光的娱乐
2026-05-26 13:58:34
逾百万亿元贷款到期,银行迎战资产端“大考”

逾百万亿元贷款到期,银行迎战资产端“大考”

澎湃新闻
2026-05-26 07:14:06
公交集团正式员工已经躺平不了了,想要混到退休不太可能

公交集团正式员工已经躺平不了了,想要混到退休不太可能

娱乐圈见解说
2026-05-09 00:23:44
3000万敲定!巴萨抢人成功,罗马连挖曼联2弃将太狠!

3000万敲定!巴萨抢人成功,罗马连挖曼联2弃将太狠!

林子说事
2026-05-26 15:52:15
《穿普拉达》男主消失18年:拒演续集,德州务农

《穿普拉达》男主消失18年:拒演续集,德州务农

自愈小日子
2026-05-25 01:15:05
暴跌90%!又一“日系神车”跌落,曾创令华尔街都赞叹的溢价神话

暴跌90%!又一“日系神车”跌落,曾创令华尔街都赞叹的溢价神话

财经八卦
2026-05-25 17:15:23
我67岁,存款80万,住过一次院才发现:钱不是自己的,儿女也不是

我67岁,存款80万,住过一次院才发现:钱不是自己的,儿女也不是

蝉吟槐蕊
2026-05-25 18:22:33
A股:大盘精准跌到4145.37点,不出意外的话,明天行情这么走

A股:大盘精准跌到4145.37点,不出意外的话,明天行情这么走

夜深爱杂谈
2026-05-26 19:39:39
脸都不要了!切尔西放着 2 亿王牌不用,非要挖曼联的非卖品!

脸都不要了!切尔西放着 2 亿王牌不用,非要挖曼联的非卖品!

奶盖熊本熊
2026-05-26 04:40:19
“金莲的药,冬萍的笑”:网友劝他俩复婚,嫌燕冬萍前夫过得太好

“金莲的药,冬萍的笑”:网友劝他俩复婚,嫌燕冬萍前夫过得太好

江山挥笔
2026-05-24 09:26:08
2026-05-26 20:27:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16752文章数 514978关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

25岁海归男恋上32岁离异女 因88.8万彩礼闹掰追讨12万

头条要闻

25岁海归男恋上32岁离异女 因88.8万彩礼闹掰追讨12万

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

家居
手机
教育
旅游
亲子

家居要闻

生与命相依 旧公寓改造

手机要闻

2nm天玑之王稳了!vivo X500系列参数偷跑:全球首发天玑9600 Pro

教育要闻

“女儿10块钱都敢随便花!”重男轻女家长被制裁:女儿直接撕标签

旅游要闻

漫步虎山公园 邂逅泰安初夏的温柔

亲子要闻

英语启蒙别再犹豫,别再纠结,来找悠悠聊聊

无障碍浏览 进入关怀版