如果您希望可以时常见面,欢迎标星收藏哦~
来源:内容由半导体行业观察(ID:icbank)编译自nextplatform,谢谢。
在过去十年中,AMD 重新涉足数据中心领域,福雷斯特·诺罗德 (Forrest Norrod) 担任数据中心业务总经理,对 AMD 来说是一笔无价的财富。诺罗德曾在 Cyrix 从事 X86 处理器工作,并在惠普担任开发工程师,之后在戴尔负责定制服务器业务多年。
在有关即将于 2024 年台北国际电脑展上推出的“Turin” Epyc 服务器 CPU 和 Instinct GPU 路线图的消息曝光之后,我们与 Norrod 就当今数据中心的 CPU 和 GPU 市场进行了一次有趣的交谈。
我们讨论了 Arm 服务器 CPU 的竞争威胁,并开玩笑说如果 AMD 决定克隆 Nvidia GPU,以便能够运行整个 Nvidia 软件堆栈,从而消除采用 AMD GPU 的主要障碍,那么将引发诉讼。但这并不是谈话的真正严肃部分。
真正严肃的是讨论数据中心对非常强大的 CPU 和 GPU 的需求,以及为什么对计算引擎容量的需求如此强烈,而且随着时间的推移,需求甚至越来越大。以及如何购买强大的 CPU 可以为基于 GPU 的 AI 系统在数据中心腾出空间和电力。
Timothy Prickett Morgan:两周前,英特尔发布了首款“Sierra Forest”至强 6 CPU,而您透露了未来“Turin”系列 Epyc CPU。在我看来,除非英特尔在工艺和封装方面与台湾半导体制造公司相差无几,否则他们无法在 CPU 上赶上您。在 2025 年或 2026 年之前,情况真的这么简单吗?
Forrest Norrod:我不想限制英特尔在工艺方面的能力。Pat Gelsinger 有一个非常积极的计划,我们总是认为他们会说到做到。因此,我们所能做的就是尽可能快地利用台积电的设计和工艺。
我真的很喜欢我们与台积电合作的机会。我认为他们是一个了不起的合作伙伴,也是一台了不起的执行机器,我们将继续使用他们每一代最先进的工艺。我喜欢我们有机会保持工艺的前沿。
同样,在设计方面,我们一点儿也没有放慢脚步。我们正尽可能地加快速度。您将继续看到我们在所有产品线上的设计创新、封装和组装创新。我无法控制英特尔会做什么。我只能假设他们明天醒来时会穿上硬汉靴子,拿着斩首剑战斗。我必须假设英特尔从今天起将始终尽其所能。
TPM:去年我们在 The Next Platform 上讨论的主题之一是,随着超大规模计算和云构建者开发自己的 ARM 处理器,他们将创建第二个成本更低的计算带。正如我们在大型机之后看到的专有小型计算机,然后是 Unix 机器,然后是 X86 服务器。当然,仍有数千万客户将长期使用 X86 机器,就像有成千上万的客户使用大型、昂贵、笨重的大型机一样。
我们的观察是,这些价格区间是分开的,它们彼此之间保持相对相同的距离,并从切入点开始遵循摩尔定律曲线。这意味着在 2020 年代中期,X86 将成为下一个传统平台,而 Arm 将成为新的后起之秀,也许有一天 RISC-V 将成为新的后起之秀,而 Arm 将成为下一个传统平台。
您认为这对已经发生和正在发生的事情的描述准确吗?
Forrest Norrod:这是可能的一种结果。归根结底,即使是内部性能,问题也是:Arm 能否在性价比和每瓦性能方面足够接近并保持足够接近,正如大型数据中心及其最终客户所看到的那样,从而证明继续投资自己的芯片是合理的?因为唯一有意义的原因是,如果你能达到并保持这一点。
我之前曾向你提出过这样的观察,即 CPU 的价格是服务器价格的 25% 到 30%。如果 CPU 比替代方案慢 25%,那么即使它是免费的也没关系,因为你在系统层面上损失了 TCO。顺便说一句,这接近我们谈论的障碍。Arm 或替代方案的性能必须比替代方案高出 20% 到 25%,或者成本要低得多,否则就没有足够的空间来实现真正的 TCO。
现在,您可能仍会出于其他原因这样做 — — 您可能仍会因为害怕错过、为了有替代方案、为了保持英特尔和 AMD 的诚实而这样做。
TPM:我想向您提出另一个观察结果。长期以来,大多数服务器买家都购买中档部件,而远离高端部件,甚至远离高端部件的低端和中档部件的上端。
如果我的数据中心面临空间和电力限制,并且我拥有大量基于 X86 的通用基础设施服务器,我会购买 N-2 或 N-3 个部件,有时甚至购买 N-1 个部件,并尝试节省每个核心的电力,并将节省的电力用于 AI 项目。我还会让机器在现场使用五、六或七年,这也需要购买更高级别的 CPU。
Forrest Norrod:我完全同意你刚才所说的一切。如果你看看企业方面,就会发现这种情况已经开始发生。顺便说一句,这正是云端长期以来一直在发生的事情。例如,在 AMD,我们向云端传输量最大的部分是我们最高端的部分。多年来一直如此。
另一个原因被低估了,那就是小芯片完全颠覆了管理堆栈成本的旧假设。这些小芯片的良率非常高。我们的 96 核“热Genoa”——我们甚至不谈论“Bergamo”,让我们保持简单——与 64 核和 32 核相比,绝大部分成本只是几个 CCD 不同。就是这样。其他一切都一样。
TPM:嗯,不是给客户的价格。。。[笑声]
Forrest Norrod:现在,当英特尔使用单片芯片时,情况完全不是这样。生产 64 核“Emerald Rapids”或 60 核“Sapphire Rapids”或 40 核“Ice Lake”就像找到母鸡的牙齿一样困难。因此,英特尔的容量箱向下移动了好几步。但对我们来说,长期以来,我们的绝大部分容量(当然是在云端)都是顶部箱部分。
在企业方面,我们确实看到人们开始朝这个方向发展,特别是迫切需要为人工智能释放空间和电力,我们确实看到人们对整合更加关注。
发生的另一件事是 VMware 的新定价策略,市场对此反应不一。VMware 定价现已完全转向按核心许可证定价,因此不再有购买低端部件的动机。公司过去必须购买一个最多 32 个核心的许可证,然后如果从 33 个核心增加到 64 个核心,则需要购买另一个许可证,依此类推。如果 VMware 只是按核心收费,那么在一台服务器上购买更多核心比在多台服务器上分配相同数量的核心更便宜。
TPM:让我们转而讨论 UALink 以及企业对规模适中、性能适中的 AI 集群的需求。
当我想到为企业(而非超大规模企业和云构建者)构建的 AI 系统以及它们可能在生产中部署的模型大小时,超大规模企业和云在几年前构建的用于处理数百亿个参数的集群聚合性能将足够好,因为它们将使用预训练模型并对其进行重新训练或增强。与 AI 巨头在推动通用人工智能时尝试做的相比,企业的数据集相当小,参数需求也更适中。
这是对企业未来发展的一个合理预测吗?
Forrest Norrod:你知道,老实说,我不确定。我会告诉你,我认识的一些人和我非常尊重的人完全同意你的观点。我知道我非常尊重的其他人则认为——不可能。他们说,随着模型越来越大,模型的能力会不断增强。它体现在更细致入微的推理和处理情况的能力上。
这就是双方的观点。打个比方:如今并非所有工作都需要高学历,人工智能也是如此。许多工作可以在低得多的水平上得到增强或自动化。
TPM:您认为世界是否可以制造足够的 GPU 来应对第二种情况,即每个人都想要具有大量参数的大型模型?
Forrest Norrod:我认为是这样。因为,坦率地说,即使对于你谈论的最大的模型,我也很难看到比几个机架更大的推理模型。最坏的情况。而且我认为,因为有这样的激励,绝大多数甚至最大的模型都将适合一个节点进行推理。
但正在考虑的一些训练集群确实令人难以置信……
TPM:有人认真考虑过的最大的 AI 训练集群是什么——你不必说出名字。有人来找你并说有了 MI500,我需要 120 万个 GPU 或什么的吗?
Forrest Norrod:是在这个范围内吗?是的。
TPM:你不能只是说“它在这个范围内”。最大的实际数字是多少?
Forrest Norrod:我非常认真,它就在那个范围内。
TPM:适用于一台机器。
Forrest Norrod:是的,我说的是一台机器。
TPM:这有点让人难以置信,你知道吗?
Forrest Norrod:我明白。他们所考虑的事情规模令人震惊。现在,所有这些都会实现吗?我不知道。但有公开报道称,非常清醒的人正在考虑花费数百亿美元甚至一千亿美元用于培训集群。
TPM:让我在这里稍微控制一下。AMD 在数据中心的 CPU 出货量中所占份额已超过 30%,并且还在增长。AMD 什么时候才能达到 30% 的 GPU 份额?GPU 份额的增长会更快吗?我认为可能会。MI300 是你们历史上增长最快的产品,因此这就引出了一个问题:你们是否能在获得 CPU 份额所需时间的一半内实现 GPU 份额的增长。或者现在追赶 Nvidia 实在是太难了,因为他们拥有比其他任何人都多的 CoWoS 封装和 HBM 内存。
您可以对 Nvidia GPU 进行一个与错误兼容的克隆。...
Forrest Norrod:听着,我们会尽可能快地开展我们的工作。我们的工作重点是尽量减少采用过程中的摩擦,看看视频,这是默认的在位者。所以这是人们到目前为止进行的任何对话中的默认做法。所以我们必须尽量减少采用我们技术的摩擦。我们不能完全按照你的建议去做。
TPM:这将是一场精彩的诉讼,Forrest 。我们都会玩得很开心……
Forrest Norrod:我不确定我们对乐趣、TPM 的定义是否相同。
TPM:乐趣是以一种令人恐惧的方式令人兴奋。
Forrest Norrod:但说真的,我们将继续在软件方面取得进展。我们渴望继续在硬件方面取得进展。我对硬件非常满意,对软件路线图也非常满意——特别是因为我们有许多非常大的客户在帮助我们。显然,推广替代方案并为自己获得差异化产品符合他们的最佳利益。因此,我们将尽可能地利用开放生态系统的力量,并尽可能快地发展它。
https://www.nextplatform.com/2024/06/24/the-appetite-for-datacenter-compute-capacity-is-ravenous/
点这里加关注,锁定更多原创内容
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3807期内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.