网易首页 > 网易号 > 正文 申请入驻

对话清华大学章明星老师,解读MLPerf™ AI存储基准测试

0
分享至

摘要

MLPerf™ Storage v1.0 AI存储基准测试吸引了全球13家领先存储厂商和研究机构参与,旨在以具有代表性和可重现性的方法测试存储系统在AI workload下的性能。该基准测试包含了分布式GPU训练过程中对存储的真实数据访问pipeline和软件栈,在满足一定GPU利用率的前提下,以存储系统提供的最大带宽和支持的最大模拟GPU数量为关键性能指标,评估AI场景下存储系统的性能表现。

9月25日,MLCommons协会发布了最新的MLPerf™ Storage v1.0 AI存储基准测试成绩。

在业内,MLPerf™ 是影响力最广的国际AI性能基准评测,由图灵奖得主大卫•帕特森(David Patterson)联合顶尖学术机构发起成立。2023年推出的MLPerf™ 存储基准性能测试,旨在以架构中立、具有代表性和可重复的方式衡量机器学习工作负载的存储系统性能。该测试通过准确建模机器学习工作负载所产生的I/O模式来帮助解决存算平衡问题,为不同存储系统和不同加速器类型的混合和匹配提供了灵活性,为ML/AI模型开发者选择存储解决方案提供权威的参考依据。

作为此次参与MLPerf™ Storage v1.0榜单规则制定的唯一国内高校学者,清华大学的章明星老师不仅参与了规则制定到发榜的全过程,还贡献了一些技术提案和idea来优化榜单的测试规范和评价规则。我们有幸采访到清华大学的章明星老师,为大家解读一下MLPerf™ Storage v1.0。

1

MLPerf™ Storage的特点有哪些,为什么受到这么多人的关注?

早期对存储需求最高的场景是HPC,为了在这个场景下评测存储的能力,业界每年都会组织IO500 榜单的评测和发布。随着AI场景的蓬勃发展,AI应用对于存储的需求也越来越大,也带来了新的业务需求需要专门为其定义评测方法。在这方面MLPerf™ Storage benchmark就是瞄准AI领域测试AI复杂负载下存储系统性能的测试套件。其数据访问的pipeline、framework、软件栈和实际的训练程序是一样的,在最大程度上模拟了AI任务的真实负载,能够测试出存储系统在真实AI任务下的性能表现。而且MLPerf™ storage benchmark通过模拟加速器计算的时间及MPI通讯来模拟GPU的工作过程,不用真实的硬件加速器,例如GPU、NPU等,使测试环境更容易搭建,也更容易模拟大规模GPU训练集群。

2

相比以往,今年发布的MLPerf™ Storage v1.0有哪些变化?

主要变化有三点:

  1. workload上去掉了对存储压力相对比较小的bert,增加了Cosmoflow和Resnet50,保留3D-Unet。这主要是因为 3D-Unet是其中对存储带宽峰值挑战最大的workload。

  2. 新增NVIDIA A100和H100的模拟支持,考察在满足高性能GPU一定利用率的前提下,存储系统能够为AI集群提供的总带宽和每节点带宽。同时进一步放宽了对主机配置的规定,比较GPU的数量而不是主机数量,如MLPerf™发言人提到的,“The number of host nodes is not particularly useful for normalization”。

  3. 强化了分布式训练,可以支持分布式训练集群的存算配比指标,即每存储节点能支持的GPU数量。因为每存储节点能支持的GPU数量越多,用户的AI存储投资回报越高。

3

如何解读这次发布的MLPerf™ Storage v1.0结果?

这次一共13家厂商参与,9月27日的Storage Working Group会议大家都很兴奋,专门庆祝了这次的成功,说明业界对于这个测评的重视和关注。MLPerf™ storage v1.0 目前还是一个client-server架构的测试模型,其中各个子workload中对于存储主要是的压力体现在带宽上。这里我们以3D-Unet为例,如果以存储带宽排序的话可以得到下图:

根据官方公布的存储节点数,我们可以进一步看到每存储节点提供的带宽和支持的GPU数量。

从柱状图中可以看出,华为、浪潮、焱融等国产厂商在各个维度都处于前列,取得了令人兴奋的成绩,表明国内存储厂商在AI领域有着极强的性能竞争力。

4

针对1.0的指标体系有什么进一步的思考?

目前MLPerf™ Storage给出的聚合总带宽是评价存储性能的一个重要指标,另一方面,一般训练集群规模都比较大,所以指标还应该考虑单台存储设备或者存储的扩展单元scale unit支持的GPU规模,所以在我和一些专家学者的倡议下在V1.0中增加了关于存储scale unit的描述。还有些细化定义V1.0还没完成,比如主机GPU侧的scale up、scale out等因素还没有展开讨论和细化,这些如果不做标准化定义和归一化处理,会影响存储scale unit支持的GPU规模及每GPU存储性能等评价维度的可比较性。我个人觉得这是V1.0一个可以进一步完善的方面。最近MLPerf™ Storage Working Group也正在开展针对V1.0的复盘总结,这些方向作为V2.0版本的评价指标演进思路正在展开讨论,后续版本的指标评价体系也会越来越完善。

5

AI存储评测基准的未来有哪些展望?

一方面,是对于1.0的指标体系的优化。具体来讲,可以考虑如下方向:

  1. 满足一定GPU利用率的前提下,指定工作负载和GPU类型,测试存储系统能够支持的最大GPU数量。为了可比较性,这个指标可以量化到每存储节点或每存储Rack Unit等单位或者单位能耗。例如每存储节点或者每存储RU支持的GPU数量越多,表明该存储系统的性能越好。

  2. 指定GPU数量的前提下,测试存储系统能够维持的GPU利用率是多少。这个指标也需要综合考虑存储系统的规模。例如指定8卡的测试场景,第一套2节点2U的存储设备能够支撑95%的利用率,第二套16节点32U的存储设备能够支撑96%的利用率,并不意味着第二套存储设备的表现就更好,因为用户为了1%的利用率提升,付出了更多的存储成本,需要有一个综合的指标来评价。

另一方面当前大模型的兴起对存储系统有新的要求和挑战,目前的MLPerf™ Storage还没有专门针对大模型场景的workload。但包括LLM训练环节的checkpoint的存写,以及推理环节我们之前和月之暗面一起在Mooncake架构中提出的KV Cache缓存等都非常依赖高速的存储。支持这些workload才能更全面的评估AI存储的性能。

另外,AI存储评测不仅仅要考虑性能,也需要包含可扩展性、可靠性、安全等方面的评测基准,这些指标对于真实的AI集群生产系统也非常重要。另外大家也可以期待下,咱们国内自己的AI存储测试基准,近期清华大学联合中国计算机学会CCF信息存储专委会发布了CCF存储评测工具和测试规范,除性能外,还有扩展性、可靠性、绿色节能等指标,旨在对智能时代下的存储系统提供全面、专业的度量基准。现已启动打榜测试工作,并将于2024年存储大会公布国内首个存储评测榜单,欢迎大家关注!

章明星,清华大学助理教授。博士毕业于清华大学,主要从事分布式内存系统相关研究工作,其成果在包括 OSDI、SOSP、ASPLOS、HPCA、FSE、VLDB、ATC、EuroSys 等国际顶级会议和期刊上发表论文近三十篇。其中发表在A类会议FSE 2014 的论文获ACM SIGSOFT 杰出论文奖,先后获得 ACM Chinasys 新星和优博,IEEE TCSC 优博等奖项。获得国家自然科学基金青年科学基金及博士后基金一等项目资助。CCF推荐中国科协青年人才托举计划入选,科技部重点研发项目课题负责人。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

超聚变:架构开放、能力共享 多算力兼容构建智能体时代基础设施底座

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
公安部出手:5月起,驾照年龄限制放宽10年,70岁老人增加5种车型

公安部出手:5月起,驾照年龄限制放宽10年,70岁老人增加5种车型

电动车的那些事儿
2025-04-23 07:46:54
无黑八,无奇迹!但刘维伟未输,王博最佳主帅黯然失色,主将伤停

无黑八,无奇迹!但刘维伟未输,王博最佳主帅黯然失色,主将伤停

君马体育
2025-04-24 09:57:23
中日韩新船订单差距断崖:韩291艘,日仅186艘,中国令人意外

中日韩新船订单差距断崖:韩291艘,日仅186艘,中国令人意外

温读史
2025-04-22 16:56:53
曾经的虚竹如今成了外卖骑手!高虎10年后街头谋生,全是咎由自取

曾经的虚竹如今成了外卖骑手!高虎10年后街头谋生,全是咎由自取

chen7
2025-04-16 17:27:32
再这么搞下去,崩塌是迟早的事

再这么搞下去,崩塌是迟早的事

重远投资观
2025-04-23 20:14:38
国乒丢冠逼走刘国梁?王楠老公一条朋友圈揭开七年真相。

国乒丢冠逼走刘国梁?王楠老公一条朋友圈揭开七年真相。

陈意小可爱
2025-04-24 05:55:37
鲍威尔:小卡哈登认可我的努力 他们的信任对我非常有帮助

鲍威尔:小卡哈登认可我的努力 他们的信任对我非常有帮助

直播吧
2025-04-24 07:09:16
特朗普对华态度缓和!承认美对自华进口商品关税过高 预计将大幅降低

特朗普对华态度缓和!承认美对自华进口商品关税过高 预计将大幅降低

财联社
2025-04-23 09:00:06
大量上市,比香蕉通便,比红薯养人!建议中老年要多吃肠道更通畅

大量上市,比香蕉通便,比红薯养人!建议中老年要多吃肠道更通畅

斯佳丽的小厨房
2025-04-24 07:00:05
“体育生被医院切错膝盖案”开庭,院方不认可“医疗事故”

“体育生被医院切错膝盖案”开庭,院方不认可“医疗事故”

新民周刊
2025-04-23 20:57:38
湖人94-85森林狼!无解的不是赢球,是东契奇赛后评价詹姆斯

湖人94-85森林狼!无解的不是赢球,是东契奇赛后评价詹姆斯

巴叔GO聊体育
2025-04-23 15:36:53
44岁李小璐在香港吃大排档,喝到双颊通红,穿蕾丝上衣身材很丰满

44岁李小璐在香港吃大排档,喝到双颊通红,穿蕾丝上衣身材很丰满

郑丁嘉话
2025-04-23 10:21:06
太可惜!广东两男童溺水致死,一个11岁一个13岁,网友:不敢救!

太可惜!广东两男童溺水致死,一个11岁一个13岁,网友:不敢救!

说点真嘞叭
2025-04-23 18:05:55
CBA四强对阵出炉,半决赛开球时间确定,广东男篮排名第六

CBA四强对阵出炉,半决赛开球时间确定,广东男篮排名第六

极度说球
2025-04-23 23:23:30
我勒个去!拿着4800万合同,季后赛场均1分,湖人今夏还会留他吗

我勒个去!拿着4800万合同,季后赛场均1分,湖人今夏还会留他吗

球毛鬼胎
2025-04-23 19:02:14
严重高估?考辛斯锐评戈贝尔:你不可能既是四届DPOY得主,却被针对到无法立足

严重高估?考辛斯锐评戈贝尔:你不可能既是四届DPOY得主,却被针对到无法立足

雷速体育
2025-04-23 23:22:12
大量洋妞涌入相亲角,不要彩礼有车有房,国内大龄剩女:滚出中国

大量洋妞涌入相亲角,不要彩礼有车有房,国内大龄剩女:滚出中国

小正说娱乐
2025-04-16 14:38:59
真炸裂!李晨和baby的瓜爆了,大家都等着看戏

真炸裂!李晨和baby的瓜爆了,大家都等着看戏

猪小果的泡泡糖
2025-03-20 13:22:34
14 年前的神剧,预言了今天的现实

14 年前的神剧,预言了今天的现实

猫眼观史
2025-04-24 10:04:07
《蛮好的人生》胡曼黎圆满,吴雅嫁富二代,邱丽苏破产,她下场最惨

《蛮好的人生》胡曼黎圆满,吴雅嫁富二代,邱丽苏破产,她下场最惨

喜欢历史的阿繁
2025-04-24 06:02:49
2025-04-24 10:44:49
DT Value incentive-icons
DT Value
关注数据价值,企业数字化变革
920文章数 1158关注度
往期回顾 全部

科技要闻

上海车展首日:雷军没来小米展台仍爆满

头条要闻

美方代表无理指责中国 中国代表:奉劝美方"不要玩火"

体育要闻

金牌和金子,刘国梁改变国乒的这些年

娱乐要闻

71岁大S妈凌晨向网友求助,大S亲笔信被扒

财经要闻

上财两万字报告深度解读中美贸易

汽车要闻

魔毯悬架+激光雷达 新款岚图FREE上海车展首发

态度原创

数码
时尚
本地
房产
艺术

数码要闻

佳明 Forerunner 970 智能手表现踪迹,最快有望 5 月发布

读书节特别福利 | 800本《爱美也是生产力》送给你们

本地新闻

云游湖北 | 澴川醉古今!孝文化名城藏了多少宝藏?

房产要闻

疯狂兑现!这个项目,正在革新老黄埔居住天花板!

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法