通信世界网消息(CWW)AI大模型的出现,让智算的需求指数级提升,由于AI应用更强调实时在线和确定性联接,同时AI训练场景对数据的吞吐量和一致性有极其严格的要求,这就对智算网络的承载能力提出了新的挑战。
智算业务的发展对IP广域网提出了哪些新需求?运营商的IP广域网又将如何演进?中国联通研究院副院长唐雄燕给出了中国联通的答案:全新定义算力智联网AINet,以“网络 + 平台”两大基础底座成就高通量、高性能、高智能的“三高”核心能力,推出高效入算、灵活联算等领先算网产品与服务。
IP 广域网面临新挑战
当前,人工智能大模型训练参数量达到万亿级别,对算力服务的需求也呈现出指数级增长态势。算力的提升不仅能够提高人工智能大模型训练的速度,也是人工智能技术快速迭代和广泛应用的关键。
随着2023年人工智能元年大模型浪潮的汹涌而至,国内运营商纷纷投身智算领域,中国联通也积极布局,其“1+N+X”智算能力布局聚焦重点城市构建AIDC发展高地。
在唐雄燕看来,AIDC间连接与海量数据传输有以下几个场景。
典型算力业务流程包含数据入算、训练、模型推理几个关键场景。数据入算要求网络能够满足TB/PB级海量数据高效传送,提供弹性按需、任务式服务。训练场景针对数据敏感用户,支持用户私域存储与AIDC之间的高效拉远训练。另外当前单AIDC算力资源面临电力机房等条件限制,可以通过多AIDC协同训练实现算力资源整合,这些就要求网络提供无损、高吞吐、高性能算间互联能力。模型推理下发要求保障用户的泛在接入与实时交互,需要网络具备广覆盖及确定性能力。
上述各类需求中最典型的一项就是超长距离无损数据传输。国际上做过相关试验,在算力网络条件下部署使用RDMA技术,如果丢包率大于1%,传输效率将下降50%;如果丢包率大于2%,传输效率则将接近于0。这对我们实现数据远距离无损传输提出很大挑战,因此,需要构建一张智算广域网,这张网采用IP广域无损等新型传输技术来提升整体算力服务和网络资源效能,并通过泛在的网络资源弥补规模差异化的算力资源的问题,再结合智能化的算力调度策略,提升整网智算利用率。并基于网络可以提供融算、融安全、融云等增值服务能力,支撑运营商孵化面向未来数字服务的新产品、新商业和新服务
全新定义算力智联网AINet
广域网作为运营商基础网络服务的关键部分,在人工智能发展进程中面临转型。智算IP广域网是面向AI计算提供算力调度的新型网络体系,将作为连接用户与算力资源的关键纽带,释放算力最大价值以契合AI发展需求。
唐雄燕介绍,中国联通全新定义了算力智联网 AINet,依托“网络+平台”两大基础底座,实现高通量、高性能、高智能的“三高”核心能力,提供高效入算、灵活联算、数据快递、数据高铁、算网一体等领先的算网产品与服务,为智算业务发展铺平广阔道路。
从传统IP广域网向智算广域目标网演进,包含算网大脑、算力网关层、基础网络层三部分,且需具备“三高”能力:高通量、高性能、高智能。
在高通量方面,首先需要有超大带宽来进行连接,在这个基础上通过流量智能分担、传输协议优化等技术,实现带宽的均衡负载和高效利用;
在高性能方面,网络要保证超低时延及抖动的保障能力,满足协同训练、存算分离等广域大DC场景的业务需求,具备良好的扩展性,实现超大规模组网的能力,能够满足将来计算的能力不断提升的需求,具备超高可靠性与安全性,满足训练和推理过程的稳定与安全需求;
在高智能方面,智算网络对动态和弹性的灵活部署与运营要求非常高,需要把智能化引入到网络中来,甚至是设备中来,实现网络的智能感知和智能调度,同时还可以基于仿真的业务准入控制,实现大数据传输时间可承诺。
智算广域网的实践突破
在基础设施布局与技术创新上,中国联通全力构建“算力中心+算力互联网络+智能调度系统”的算力网络体系,已建成覆盖全国梯次分布的多层级算力中心。
唐雄燕表示,基于智算广域网关键技术研究创新,中国联通将依托 AINet 高通量数据网打造任务式高速“数据快递”服务产品,助力数字金融、工业互联网、智慧交通、智慧医疗等各行业数智化升级。
值得一提的是,中国联通研究院与浙江联通、联通服装制造军团协同攻关,针对AI敏感数据的本地存储异地训练需求提出了创新的业务模式,并成功在杭州与金华两地间实施了业界首次30TB样本数据的跨200公里存算分离拉远训练,经过实际测算,训练效率高达97%以上。
通过本次测试充分验证了存算分离技术的安全性、可行性和高效性,为未来AI技术的发展提供了新的思路和方向。唐雄燕介绍到,存算分离技术是指将存储数据的仓库和对数据进行计算的加工厂独立开来,在训练时直接将数据从远端存储设备中拉过来进行计算,而不需要先存储到本地的磁盘再进行处理,可以有效保证用户数据的安全性和一致性。
近期,中国联通又于临港智算中心完成AI大模型300公里分布式协同训练试点验证,百亿AI大模型跨域分布式训练等效算力达单集群95%以上,有力证实跨DC长距协同训练技术商用的可行性与高效性,为AI大模型训练模式提供了全新的网络解决方案。
未来,中国联通将持续发挥行业引领作用,借助智算互联网AINet,打通计算、网络、安全多领域合作通道,推动关键技术的深度融合与创新发展,实现计算和网络的一体化协同运作,赋能产业的高质量发展。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.