2024赛季F1大奖赛刚刚结束一周,科技界全球年度盛会亚马逊云科技 re:Invent就重磅来袭。拉斯维加斯又沸腾起来。12月1日起,超过6万名全球从业者陆续汇聚在此,会议遍布拉斯维加斯六家酒店。周一早晨7点,我所在的威尼斯人酒店气氛已经拉满。
亚马逊云科技高级副总裁Peter DeSantis
Monday Night Live把当天的气氛推向高潮。亚马逊云科技高级副总裁Peter DeSantis在开场时提到,他尝试借助生成式AI助手可视化自己的分享,AI小助手给出了冰山、太空等建议,最后双方达成了一致:通过“树”来体现亚马逊云科技软硬件一体全栈优化的成功理念更为合适。
Peter DeSantis说,12年前投资定制自研芯片,这颗树的主根从这里开始,实现了创新的广度和差异化。
Graviton4:从跑分到基于应用设计
2016年的 re:Invent大会上,当亚马逊云科技自研的第一颗数据中心芯片亮相时,其惊艳程度并不亚于大模型给行业的震撼。从那时起,全球的云厂商开始踏上自研芯片的路径。
2018年Graviton 1 首次在A1实例中亮相时,完全专注于横向扩展性能。2019年, Graviton2 支持扩展到更通用的工作负载,2021年Graviton3 上市,芯片上部署的 R7g 实例能够支持一些机器学习 (ML) 和高性能计算 (HPC) 应用程序。2022年AWS推出Graviton 3E 处理器,用于 Hpc7g 和 C7gn 实例,矢量指令处理性能比 Graviton3 高出 35%。2024年,Graviton 4 芯片的运行速度为 2.8 GHz。
可以说,基于Arm 的 Graviton 系列芯片两年一更的节奏,而且每代都取得了极大的飞跃和提升,成为亚马逊云科技为其弹性计算云工作负载提供节能高性能定制芯片的巅峰。
最重要的是,今年的大会上,亚马逊云科技特意分享如何针对现实世界的工作负载优化Graviton性能的,传统CPU的评价机制一般都是各种benchmark(基准测试),就像是通过跑100米短跑来训练马拉松。虽然在这两种情况下都在跑步,但你从根本上是在为不同的挑战进行训练。Graviton则是在通过真实工作负载的性能数据来进行微架构演进,相比传统芯片设计公司,云厂商有大量实际场景和案例,对不同应用的侧重点和优化方向,让芯片更加贴近使用场景,。
Nitro和Graviton协同工作 全链路安全设计
另外,关于云计算的安全问题, Nitro系统实现对服务器架构的重新设想。从CPU到CPU通信到PCIe流量的每一个关键连接都受到基于硬件的安全保护,这种安全从制造开始Nitro作为可信根构建了全流程的安全验证,从根本上改变构建和云安全方式。而让Nitro和Graviton协同工作,亚马逊云科技创建了一个连续的认证系统。这不仅仅是安全方面的增量改进,还有一个更极致的安全措施是Nitro和Graviton之间的PCIe链路都加密了。
Trainium2:简化设计 封装工艺
现在,亚马逊云科技为大多数非AI计算任务提供基于Arm架构的Graviton中央处理单元,最先进的基础模型和大语言模型通常包含数千亿甚至数万亿个参数或变量,需要能够支持上万机器学习芯片进行扩展的可靠高性能计算能力。针对AI计算的训练和推理场景。其推理芯片Inferentia于2018年推出,而训练芯片Trainium首次亮相于2020年。
在相同的时间内可以处理更多的数据,加速AI模型的训练过程。尤其大模型训练的数据并行通信问题,亚马逊云科技在芯片架构、制程工艺以及算法优化等方面的持续投入和创新。用最先进的封装或最先进的制造技术建造最大的芯片,过去的几代Graviton处理器中一直在使用先进的封装技术,Trainium2成为c的一个新起点。
Peter DeSantis详细分享单颗芯片的最大Size,通过先进的封装技术, 最大封装大概2倍多的Reticle Size。 将计算芯片和高带宽内存(HBM)模块集成在一个紧凑的封装(package)内。每个Trainium2加速器(单卡)内封装中有两个Trainium2计算核心,而每个核心旁边都配备了两块HBM内存模块,从而实现了计算和内存的无缝集成。这种先进的封装设计克服了芯片尺寸的工程极限,最大限度地缩小了计算和内存之间的距离,使用大量高带宽、低延迟的互连将它们连接在一起。这不仅降低了延迟,还能使用更高效的协议交换数据,提高了性能
大容量内存的支持也意味着Trainium2能够更好地应对大规模数据集的处理需求,与上一代的Trainium芯片相比性能提升了4倍,内存容量提升了3倍,更具性价比和能效优势,是亚马逊云科技大幅提高AI能力的关键。
通过应用Chiplet和先进封装等技术,芯片集成的晶体管数量持续增长,尺寸和功耗也越来越大。为了减少内部单元和改善热管理,亚马逊云科技简化了Trainium 2芯片的设计,优化供电架构。
现场,Anthropic的联合创始人Tom Brown发布了Project Rainer的超大规模集群(数十万个Trn2) ,宣布下一代Claude模型将在Project Rainier上训练运算能力是以往集群的5倍多。
基于Trainium2,亚马逊云科技发布了Trainium2 Server, 64卡的ScaleUP机柜基于Trainium2加速器,每台Trainium服务器搭载16块Trainium加速器,并配备有专用的Nitro加速卡和机头。
一台Trainium服务器可提供20万亿次每秒浮点运算能力,是亚马逊云科技当前最大AI服务器的1.25倍。同时,它还拥有1.5TB的高速HBM内存,是现有最大AI服务器的2.5倍,显存带宽达46TB/s。
而随着AI算力需求的急剧增长,网络成为核心焦点,交换网络的能力一定程度上决定了计算总体性能,算力单元架构、算力集群需要围绕网络性能的发挥进行定义。Peter DeSantis详细介绍了亚马逊云科技针对AI网络的场景优化和布局,并发布10p10u的网络架构。
生成式AI正激发全球企业和开发者的创新激情,着眼客户需求,亚马逊云科技提供可用的计算资源集群。在市场对英伟达芯片有强劲需求的大背景下,亚马逊云科技自研Trainium2芯片也能避免因而英伟达芯片供应紧张而带来的挑战。通过不同类型芯片组合来配置云基础设施,来帮助客户应对挑战,带领客户决胜生成式人工智能的未来。
(文末增加两张展区现场服务器图,关键词:800G、液冷、BG200)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.