黄仁勋用一场脱稿演讲掀开AI变革的新篇章,直言道:
"几乎全世界都误解了Scaling Law"
当所有人都在质疑AI增长天花板时,英伟达却在继续铺设通往万亿美元市场的高速公路。
3月19日,万众期待的AI界春晚,英伟达GTC 2025大会在加州圣何塞隆重举行。
身着标志性黑色皮衣的英伟达CEO黄仁勋带来了一场长达2小时的精彩演讲,不用提词器,全程脱稿。
他从GeForce游戏显卡的25周年聊起,经过AI芯片革命,最终展望机器人时代,为我们勾勒出英伟达眼中AI的宏伟未来。
黄仁勋的开场与回顾
黄仁勋首先回顾了GeForce系列显卡的历史,尤其是RTX 5090,它比前一代产品体积小了30%,但性能却显著提升。
他强调了CUDA对于AI发展的重要性,并指出正是通过CUDA,AI才得以迅速发展并反过来提升了游戏体验。
AI正处于关键拐点
Scaling Law争议下,算力需求再加速。
黄仁勋开场便将今年1月在CES上使用过的两张PPT重新展示给观众。
第一张展示了AI发展的四个阶段:
感知AI(Perception AI)
生成式AI(Generative AI)
代理AI(Agentic AI)
物理AI(Physical AI)
目前我们正处于从生成式AI向具有更强自主性的代理AI过渡的关键阶段。
第二张PPT则呈现了Scaling Law的三个阶段:
预训练扩展(Pre-training Scaling)、
后训练扩展(Post-training Scaling)
测试时间扩展/长思考(Test-time Scaling/Long Thing)。
这里粒子熔炉先为大家解释一下什么是:Scaling Law。
Scaling Law,也就是缩放定律,是一个听起来有点高大上,但其实很好理解的概念。
scaling law最早由OpenAI在2020年的一篇论文中提出,主要讲述了大模型的性能主要与计算量、模型大小和数据量三者的大小关系。
有业内专业人士将其比作AI领域的“摩尔定律”。
简单来说,就是模型更大、数据更多、计算资源用的更多时,模型的就越聪明。
但这种提升并不是简单的线性关系,而是有一定的数学规律可循。
这个定律在AI领域特别重要,因为可以帮助科学家们提前预测模型的表现。
比如,通过在小模型上做实验,找到这个缩放规律,就能大致推测出如果把模型规模扩大,它的性能会变得多好。
不过目前一些专家认为,Scaling Law已经进入边际效应递减阶段,随着模型规模的扩大,性能提升的速度正在放缓。Scaling Law可能已经逐渐不起作用了。
对于业界普遍认为的Scaling Law放缓问题,黄仁勋提出了截然不同的观点。
他甚至直言"几乎全世界都误解了"这个问题,强调由于新兴的扩展方法和技术,AI的进步速度实际上比以往任何时候都快。
黄仁勋强调了推理阶段的Scaling Law才刚开始,认为AI回答问题前思考得越多,推理效果就越好,而这是一个极其消耗算力的过程。
他现场以婚宴座位安排为例说明,推理模型DeepSeek R1要完成这项任务消耗的算力是传统大模型的150倍,token消耗量也高达传统模型的20倍。
黄仁勋预测:"最近两年只是AI浪潮的开始,随着AI大模型和推理计算需求激增,数据中心的资本开支会爆发式增长,到2028年整个市场规模将突破1万亿美元。"
据黄仁勋透露,四大云服务提供商对GPU的需求正在激增,美国主要云服务商今年已经订购了大约360万颗Blackwell芯片。
Blackwell全家桶
跨越数据中心到个人电脑的全面布局
本次大会的焦点无疑是新一代AI芯片的发布。
英伟达正式推出了Blackwell Ultra(GB300)芯片,这是去年发布的Blackwell架构的升级版。
单颗GB300配备了288GB的HBM3e内存(相比GB200的192GB提升了50%),提供15PF的稠密FP4算力。
与此同时,英伟达并没有直接对比GB300与GB200的性能,而是选择将其与2022年发布的H100做对比,展示出GB300具备1.5倍的FP4推理能力。
值得注意的是,GB300能够大幅加快AI推理速度。
根据官方数据,NVL72 集群能够运行 DeepSeek-R1 671B 模型时,只需 10 秒即可给出答案,而 H100 则需要 1.5 分钟。
Nvidia 表示,这是因为它每秒可以处理 1,000 个 token,是 Nvidia 2022 年芯片的十倍。
在此基础上,英伟达打造了面向不同应用场景的完整产品线:
1.数据中心级别:Blackwell Ultra NVL72平台集成72颗GB300,将于2025年下半年推出,算力达到原本GB200 NVL72的1.5倍。
可以为为大规模AI训练和推理提供强大支持。
2.工作站级别:DGX Station搭载单颗GB300超级芯片,拥有784GB统一内存,AI算力高达20000 TFLOPS。
黄仁勋将其描述为"AI时代的计算机",让AI开发人员、研究人员和数据科学家能够在桌面上对大型模型进行原型设计、微调和推理。
3.个人电脑级别:此前在CES上展示的Project DIGITS迷你主机正式命名为DGX Spark,售价3000美元,提供1000 TFLOPS的AI算力。
黄仁勋将其称为"完美的圣诞礼物",为AI开发人员、研究人员、数据科学家和学生提供桌面端的轻量型的计算平台。
4.专业显卡:发布RTX PRO系列Blackwell专业卡,旗舰RTX PRO 6000系列配备24,064个CUDA核心、752个Tensor核心、188个RT核心。
这些专业显卡将由华硕、戴尔、惠普等厂商以及Boxx、Lambda和Supermicro一起销售。
接下来,黄仁勋说出了那句经典台词:
“买得越多,省得越多。它甚至比那更好。现在,买得越多,赚得越多。”
Rubin架构揭示英伟达的野心版图
除了当前的Blackwell系列,黄仁勋还公布了英伟达未来几年的AI芯片发展路线图。
继Hopper、Blackwell之后,英伟达延续了英伟达以杰出科学家命名芯片架构的传统。
为了纪念"证实暗物质存在"的女性科学先驱薇拉・鲁宾(Vera Rubin,1928-2016),将下一代架构将命名为Rubin。
从2004年至今,英伟达已经发布了十三代芯片架构:
包括Currie(居里)、Tesla(特斯拉)、Fermi(费米)、Kepler(开普勒)、Maxwell(麦克斯韦)、Pascal(帕斯卡)、Volta(伏特)、Turing(图灵)、Ampere(安培)、Ada Lovelace(阿达·洛芙莱斯)、Hopper(霍珀)、Blackwell(布莱克威尔),以及今天宣布的Rubin(鲁宾),每年发布一代。
Vera Rubin架构是一个全新设计,
黄仁勋表示:"基本上,除了机架外,所有东西都是全新的。
Rubin的FP4算力达到50千万亿次,高于Blackwell的20千万亿次浮点运算。
从性能提升的角度看,如果说Blackwell是Hopper的68倍,那么Rubin的性能将达到Hopper的900倍,这一飞跃式的提升展示了英伟达在AI硬件领域的雄心。
黄仁勋还宣布了将于 2027 年下半年推出的 Rubin Ultra。
Rubin Ultra 将采用 NVL576 机架配置,并配备带有四个标线大小芯片的独立 GPU,也就是将四个芯片组合成一个芯片,使 Rubin 的速度翻倍,并将其称为四个 GPU。
而在Rubin之后,英伟达已经规划了下一代架构,该架构以美国理论物理学家理查德·费曼 (Richard Feynman)命名,黄仁勋在主题演讲中没有透露 Feynman 架构的细节。
突破性创新: 硅光技术为超大规模AI集群铺平道路
为解决大规模AI集群的互联挑战,英伟达推出了革命性的NVIDIA Photonics硅光子技术,这是本次大会最受关注的重点之一。
这项技术通过共封装光学(CPO)取代传统的可插拔光学收发器,使光纤直接连接到交换机,可显著降低数据中心功耗。
基于这一技术,英伟达发布了Spectrum-X和Quantum-X两款硅光子网络交换机。
黄仁勋称其为"世界上最先进的网络解决方案"。
Quantum 3450-LD机箱内有四个 Quantum-X CPO 插槽,以无阻塞方式完全连接,以 800 Gb/秒的速度提供 144 个端口,这些端口的总有效带宽为 115 Tb/秒。
这些产品将帮助构建能够连接数百万GPU的超大规模AI数据中心。
英伟达的硅光交换机与传统方案相比,集成了创新的光学技术。
与传统方法相比,英伟达光子交换机集成了光学创新技术,激光器数量减少了4倍,从而实现了3.5倍的功率效率、63倍的信号完整性、10倍的大规模网络弹性和1.3倍的部署速度。
值得一提的是,在大会上还发生了一件有趣的事情:
老黄在拿线的时候,线还缠在一起了,然后现场解了半天:
软件革新: Dynamo让AI工厂运转更高效
硬件的飞跃需要软件的支持,在软件层面,英伟达发布了被称为"AI工厂操作系统"的Dynamo。
黄仁勋强调:
随着我们扩展AI,推理将成为未来十年最重要的工作负载之一。
Dynamo是一个开源的分布式推理服务库,旨在解决用户对token需求与生产能力之间的矛盾。
领先的Agentic AI平台用户包括埃森哲、Amdocs、Atlassian、Box、Cadence、CrowdStrike、德勤、IQVIA、微软、SAP和ServiceNow。
他们都正在与NVIDIA合作开发其新的推理模型和软件,这表明英伟达在软件生态系统构建方面的努力正获得行业认可。
机器人时代: AI的下一个万亿美元市场
大会的最后部分,黄仁勋将目光投向了更远的未来:机器人技术。
他将机器人描述为下一个价值10万亿美元的产业,并表示到本世纪末,全球将至少缺少5000万名工人,机器人技术将成为解决这一问题的关键。
英伟达与迪士尼和谷歌Deepmind合作开发了物理引擎Newton,这是一个开源的物理引擎,专为机器人模拟设计。
黄仁勋还宣布发布全新Cosmos世界基础模型,为物理AI开发引入开放且完全可定制的推理模型,并赋予开发人员对世界生成前所未有的控制权。
他表示:"使用Omniverse来调节Cosmos,并使用Cosmos来生成无限数量的环境,使我们能够创建有根有据、由我们控制,但同时又系统地无限的数据。"
随后,英伟达正式发布了Isaac GR00T N1,这是世界上第一个开放、完全可定制的通用人形推理和技能基础模型。
黄仁勋表示:
"通用机器人时代已经到来。借助英伟达Isaac GR00T N1和新的数据生成和机器人学习框架,世界各地的机器人开发人员将开辟人工智能时代的下一个前沿。"
为了生动展示机器人技术的进展,一个名叫"蓝色"的微型机器人从地板上的舱口钻出来,向黄仁勋发出嘟嘟声。
这个小家伙去年GTC就曾到访黄仁勋演讲现场,今年再次成功吸引了全场目光,观众纷纷拿出手机拍摄这一有趣的互动。
市场争议:华尔街为何不买账?
尽管技术亮点频出,发布会后英伟达股价下跌3%。
粒子熔炉看到分析师认为,核心问题可能在于"缺乏新故事":
DeepSeek等高性价比模型冲击下,客户对算力成本更敏感,而Blackwell Ultra仍需验证市场接受度;
机器人、量子计算等布局虽具潜力,但商业化周期长,难解短期增长焦虑;
黄仁勋强调"推理算力需求将暴增100倍",但市场对AI应用落地速度持观望态度。
结语
从Blackwell到Rubin再到Feynman,英伟达的技术路线图已经延伸到2028年之后。
然而,华尔街的冷淡反应似乎在问:
这场押注未来的豪赌能否经受住短期增长压力的考验?
在AI应用落地与算力需求之间,英伟达能否继续保持其印钞机地位?
让我们拭目以待。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.