网易首页 > 网易号 > 正文 申请入驻

2024 re:Invent :从自研芯片看亚马逊云科技创新差异化

0
分享至

2024赛季F1大奖赛刚刚结束一周,科技界全球年度盛会亚马逊云科技 re:Invent就重磅来袭。拉斯维加斯又沸腾起来。12月1日起,超过6万名全球从业者陆续汇聚在此,会议遍布拉斯维加斯六家酒店。周一早晨7点,我所在的威尼斯人酒店气氛已经拉满。


亚马逊云科技高级副总裁Peter DeSantis


Monday Night Live把当天的气氛推向高潮。亚马逊云科技高级副总裁Peter DeSantis在开场时提到,他尝试借助生成式AI助手可视化自己的分享,AI小助手给出了冰山、太空等建议,最后双方达成了一致:通过“树”来体现亚马逊云科技软硬件一体全栈优化的成功理念更为合适。


Peter DeSantis说,12年前投资定制自研芯片,这颗树的主根从这里开始,实现了创新的广度和差异化。

Graviton4:从跑分到基于应用设计

2016年的 re:Invent大会上,当亚马逊云科技自研的第一颗数据中心芯片亮相时,其惊艳程度并不亚于大模型给行业的震撼。从那时起,全球的云厂商开始踏上自研芯片的路径。


2018年Graviton 1 首次在A1实例中亮相时,完全专注于横向扩展性能。2019年, Graviton2 支持扩展到更通用的工作负载,2021年Graviton3 上市,芯片上部署的 R7g 实例能够支持一些机器学习 (ML) 和高性能计算 (HPC) 应用程序。2022年AWS推出Graviton 3E 处理器,用于 Hpc7g 和 C7gn 实例,矢量指令处理性能比 Graviton3 高出 35%。2024年,Graviton 4 芯片的运行速度为 2.8 GHz。

可以说,基于Arm 的 Graviton 系列芯片两年一更的节奏,而且每代都取得了极大的飞跃和提升,成为亚马逊云科技为其弹性计算云工作负载提供节能高性能定制芯片的巅峰。


最重要的是,今年的大会上,亚马逊云科技特意分享如何针对现实世界的工作负载优化Graviton性能的,传统CPU的评价机制一般都是各种benchmark(基准测试),就像是通过跑100米短跑来训练马拉松。虽然在这两种情况下都在跑步,但你从根本上是在为不同的挑战进行训练。Graviton则是在通过真实工作负载的性能数据来进行微架构演进,相比传统芯片设计公司,云厂商有大量实际场景和案例,对不同应用的侧重点和优化方向,让芯片更加贴近使用场景,。

Nitro和Graviton协同工作 全链路安全设计


另外,关于云计算的安全问题, Nitro系统实现对服务器架构的重新设想。从CPU到CPU通信到PCIe流量的每一个关键连接都受到基于硬件的安全保护,这种安全从制造开始Nitro作为可信根构建了全流程的安全验证,从根本上改变构建和云安全方式。而让Nitro和Graviton协同工作,亚马逊云科技创建了一个连续的认证系统。这不仅仅是安全方面的增量改进,还有一个更极致的安全措施是Nitro和Graviton之间的PCIe链路都加密了。

Trainium2:简化设计 封装工艺

现在,亚马逊云科技为大多数非AI计算任务提供基于Arm架构的Graviton中央处理单元,最先进的基础模型和大语言模型通常包含数千亿甚至数万亿个参数或变量,需要能够支持上万机器学习芯片进行扩展的可靠高性能计算能力。针对AI计算的训练和推理场景。其推理芯片Inferentia于2018年推出,而训练芯片Trainium首次亮相于2020年。


在相同的时间内可以处理更多的数据,加速AI模型的训练过程。尤其大模型训练的数据并行通信问题,亚马逊云科技在芯片架构、制程工艺以及算法优化等方面的持续投入和创新。用最先进的封装或最先进的制造技术建造最大的芯片,过去的几代Graviton处理器中一直在使用先进的封装技术,Trainium2成为c的一个新起点。

Peter DeSantis详细分享单颗芯片的最大Size,通过先进的封装技术, 最大封装大概2倍多的Reticle Size。 将计算芯片和高带宽内存(HBM)模块集成在一个紧凑的封装(package)内。每个Trainium2加速器(单卡)内封装中有两个Trainium2计算核心,而每个核心旁边都配备了两块HBM内存模块,从而实现了计算和内存的无缝集成。这种先进的封装设计克服了芯片尺寸的工程极限,最大限度地缩小了计算和内存之间的距离,使用大量高带宽、低延迟的互连将它们连接在一起。这不仅降低了延迟,还能使用更高效的协议交换数据,提高了性能

大容量内存的支持也意味着Trainium2能够更好地应对大规模数据集的处理需求,与上一代的Trainium芯片相比性能提升了4倍,内存容量提升了3倍,更具性价比和能效优势,是亚马逊云科技大幅提高AI能力的关键。



通过应用Chiplet和先进封装等技术,芯片集成的晶体管数量持续增长,尺寸和功耗也越来越大。为了减少内部单元和改善热管理,亚马逊云科技简化了Trainium 2芯片的设计,优化供电架构。


现场,Anthropic的联合创始人Tom Brown发布了Project Rainer的超大规模集群(数十万个Trn2) ,宣布下一代Claude模型将在Project Rainier上训练运算能力是以往集群的5倍多。


基于Trainium2,亚马逊云科技发布了Trainium2 Server, 64卡的ScaleUP机柜基于Trainium2加速器,每台Trainium服务器搭载16块Trainium加速器,并配备有专用的Nitro加速卡和机头。


一台Trainium服务器可提供20万亿次每秒浮点运算能力,是亚马逊云科技当前最大AI服务器的1.25倍。同时,它还拥有1.5TB的高速HBM内存,是现有最大AI服务器的2.5倍,显存带宽达46TB/s。


而随着AI算力需求的急剧增长,网络成为核心焦点,交换网络的能力一定程度上决定了计算总体性能,算力单元架构、算力集群需要围绕网络性能的发挥进行定义。Peter DeSantis详细介绍了亚马逊云科技针对AI网络的场景优化和布局,并发布10p10u的网络架构。

生成式AI正激发全球企业和开发者的创新激情,着眼客户需求,亚马逊云科技提供可用的计算资源集群。在市场对英伟达芯片有强劲需求的大背景下,亚马逊云科技自研Trainium2芯片也能避免因而英伟达芯片供应紧张而带来的挑战。通过不同类型芯片组合来配置云基础设施,来帮助客户应对挑战,带领客户决胜生成式人工智能的未来。

(文末增加两张展区现场服务器图,关键词:800G、液冷、BG200)




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美联邦大楼被炸,168人死亡680人受伤,现场惨烈程度不输911

美联邦大楼被炸,168人死亡680人受伤,现场惨烈程度不输911

小胡军事爱好
2024-12-01 23:02:29
阿娇体态大变,“肿”上舞台开唱,粉丝与路人:这单买还是不买?

阿娇体态大变,“肿”上舞台开唱,粉丝与路人:这单买还是不买?

墨下
2024-12-02 03:27:45
可惜!机车网红万小橘离世,年仅19岁,惨烈现场曝光,家人已哭麻

可惜!机车网红万小橘离世,年仅19岁,惨烈现场曝光,家人已哭麻

花小萌和你聊情感
2024-12-04 16:33:50
叙利亚“稳了”?中国下场表态支持,第三方势力已经出兵援助!

叙利亚“稳了”?中国下场表态支持,第三方势力已经出兵援助!

现代小青青慕慕
2024-12-05 00:01:40
曹德旺输了官司后,怒怼审判长:别以为我不知道你私下收了200万

曹德旺输了官司后,怒怼审判长:别以为我不知道你私下收了200万

红豆讲堂
2024-10-13 17:10:02
天塌了,新能源汽车养路费新政来袭!海南率先试点按里程收费

天塌了,新能源汽车养路费新政来袭!海南率先试点按里程收费

中关村在线
2024-12-04 17:24:37
美国男子遭误诊获赔约30亿人民币,成美国史上最贵医疗赔偿

美国男子遭误诊获赔约30亿人民币,成美国史上最贵医疗赔偿

大象新闻
2024-12-04 07:53:13
画面曝光!韩国会通过要求“解除戒严”决议后,朝野两大政党党首握手交谈

画面曝光!韩国会通过要求“解除戒严”决议后,朝野两大政党党首握手交谈

环球网资讯
2024-12-04 09:59:08
鸿蒙版微信会被对方看到自己的备注 张军:现已修复

鸿蒙版微信会被对方看到自己的备注 张军:现已修复

手机中国
2024-12-03 17:28:07
心疼!疑吴柳芳教练聊天记录,辟谣因伤退役,称某势力不让上奥运

心疼!疑吴柳芳教练聊天记录,辟谣因伤退役,称某势力不让上奥运

柚子新媒
2024-12-04 16:37:56
新疆136-105战胜宁波,来看赛后刘炜、李炎哲和马泳说了什么?

新疆136-105战胜宁波,来看赛后刘炜、李炎哲和马泳说了什么?

篮球资讯达人
2024-12-05 00:32:12
羽绒服 + 豆腐裤=入冬巨时髦CP!冬天这么穿保暖又显瘦!

羽绒服 + 豆腐裤=入冬巨时髦CP!冬天这么穿保暖又显瘦!

Yuki女人故事
2024-12-03 22:47:36
CBA第13轮排名大变!新疆升榜首,辽篮压制山西,广东被南京追平

CBA第13轮排名大变!新疆升榜首,辽篮压制山西,广东被南京追平

体坛大事记
2024-12-04 23:22:52
广州楼市全军覆没,广州天河区房价从4.7万涨至6.5万

广州楼市全军覆没,广州天河区房价从4.7万涨至6.5万

有事问彭叔
2024-12-04 17:35:06
一夜之间,呼和浩特万达商圈房价从1万跌至9000元

一夜之间,呼和浩特万达商圈房价从1万跌至9000元

有事问彭叔
2024-12-04 17:36:57
深圳缴费16年,60岁退休,养老金只发了1410元,是因为什么呢?

深圳缴费16年,60岁退休,养老金只发了1410元,是因为什么呢?

碎月导师
2024-12-04 16:33:06
众星悼念琼瑶!林心如哽咽到无法言语,保剑锋形容她是筑梦大师

众星悼念琼瑶!林心如哽咽到无法言语,保剑锋形容她是筑梦大师

裕丰娱间说
2024-12-04 16:22:06
DNF:55个SS灵魂兑1张深渊票,120几“深渊爆猛料”!春节套加入

DNF:55个SS灵魂兑1张深渊票,120几“深渊爆猛料”!春节套加入

记录生活日常阿蜴
2024-12-03 11:48:34
琼瑶去年线下公开露面曾称“一生值得”!在古巨基搀扶下入座

琼瑶去年线下公开露面曾称“一生值得”!在古巨基搀扶下入座

南方都市报
2024-12-04 17:33:03
预售价80万元 蔚来ET9将于12月21日上市

预售价80万元 蔚来ET9将于12月21日上市

车质网
2024-12-02 09:30:31
2024-12-05 00:51:00
DT Value
DT Value
关注数据价值,企业数字化变革
867文章数 1156关注度
往期回顾 全部

科技要闻

被字节起诉的实习生,写了AI顶会最佳论文

头条要闻

媒体:尹锡悦遭"众叛亲离" 美国现在最怕尹锡悦政权灭亡

头条要闻

媒体:尹锡悦遭"众叛亲离" 美国现在最怕尹锡悦政权灭亡

体育要闻

哈登,我不做大哥好多年

娱乐要闻

琼瑶在家中自杀离世,千字遗书曝光

财经要闻

牛市的悲歌

汽车要闻

表现够全能 柴油版二代哈弗H9或许更适合家用

态度原创

本地
亲子
健康
公开课
军事航空

本地新闻

云游中国|来伦布夏果感受充满Passion的人生

亲子要闻

避坑!这项检查费钱又坑娃,别给孩子做了(不是微量元素

花18万治疗阿尔茨海默病,值不值?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

韩国国会对峙冲突现场:韩军破窗入楼

无障碍浏览 进入关怀版