8月9日消息,日前,以“开放协同:协作、智慧、创新”为主题的2024开放计算中国峰会召开。浪潮信息服务器产品线总经理赵帅分享了大模型的发展趋势以及人工智能算力生态开放的进展,指出未来一切计算皆AI。会后,赵帅同浪潮信息AI&HPC产品线高级产品经理张政、浪潮信息服务器产品线产品规划经理罗剑接受媒体采访,就开放计算推动人工智能创新发展的话题进行深入交流。
赵帅表示,今天2/3的模型都选择开源,超过80%以上的AI项目使用开源框架进行开发。开源模型的下载量突破3亿次,并衍生出了超过3万个新模型。可以说是开源开放带来了AI的发展和繁荣。基于此,硬件的开放设计也成为推动人工智能算力生态发展的关键。只有如此,才能够更好地触达每一个客户、落地每一个行业。
赵帅举例说,在开放生态下,2019年开放了加速规范OAM的设计,浪潮信息在2019年的OCP峰会上展示了业界第一块UBB,在2020年推出了OAM的参考系统设计MX1,2021年发布基于OAM v1.0规范的服务器NF5498A5,促进了数家厂商高端AI芯片的开发部署。OAM的开放设计标准大大加速了算力芯片的适配兼容过程,产业资源投入节省数十亿元,使算力部署和迭代提速,支撑上层大模型和AIGC应用的成熟。
具体来说,大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器系统支撑。而实现数千颗芯片互联,并让它们能够高效协同工作的前提,是解决单个服务器内部芯片的高速直联。而开放加速规范OAM的出现,解决了单个服务器内多元AI加速卡形态和接口不统一,高速互连效率低,研发周期长等问题,得到了众多企业的支持与参与。
对此,张政指出,浪潮信息在开放加速规范上一直在不断推动标准和技术往前演进,在开放社区里默默地做了很多年的工作,刚开始合作伙伴很少,这个事情也不会给公司带来盈利,但我们会发现,它对于整个产业链的收益是非常巨大的,现在基本上国内外芯片厂商,最高端的产品全部采用了开放标准,所以我们本质上底层是要做好一个产业,只有产业好、产业健康,我们在产业链上才能够获得更多自己的价值。
据介绍,以浪潮信息为代表的系统厂商研制了多款符合开放加速规范的AI服务器。浪潮信息定义了业界第一个符合OAM规范的8卡互连硬件系统,这是一个遵循开放计算规范的互连的基板,首次达到了OAM规范下芯片互连的最高速率56Gbps,远高于PCIe5.0的传输速率,并且仍在研发更高速率的开放加速规范。浪潮信息最新一代基于OAM规范的AI服务器NF5698G7支持多种基于OAM规范的开放加速芯片,并为用户构建了一个千卡液冷集群,支持超千亿参数量的AI大模型训练。
至此,加速规范的痛点解决了,新的挑战出现了。
赵帅表示,未来一切计算皆AI,但随着应用范式的多样化,CPU呈现出多元化发展方向,那如何为多元化的CPU提供更好的算力平台并且提升效率?
刚刚启动的开放算力模组(OCM)规范给出了答案。OCM以CPU和内存作为最小的算力单元,标准化高速和低速的互连接口,如同OAM构建了统一的加速芯片底座,OCM将推动CPU算力单元接口的统一和生态的完善。这一方案由中国电子标准院、Intel、AMD、浪潮信息、联想、超聚变、百度、小红书等共同发起,是国内首个服务器计算模组设计规范,旨在建立基于处理器的标准化算力模组单元,通过统一不同处理器算力单元对外高速互连、管理协议、供电接口等,实现不同架构处理器芯片兼容,构建CPU的统一算力底座,以解决CPU生态挑战问题,方便客户根据人工智能、云计算、大数据等多样化应用场景,灵活、快速匹配最适合的算力平台,推动算力产业高质量快速发展。
罗剑补充道,浪潮信息在做产业规范建设的时候,不是凭空而来,而是与产业上下游伙伴共同碰撞而来。他强调,产业规范和产品产业化是同步向前推进的,而不是说只有一个规范,只有一个规范对于整个产业来说是没有价值的!只有把规范放在市场,放在客户侧去做应用,才能产生真正的价值。(定西)
本文来自网易科技报道,更多资讯和深度内容,关注我们。