网易首页 > 网易号 > 正文 申请入驻

中国算力市场,不能只讲“堆卡”的故事

0
分享至

当以“降本”闻名的马斯克对外公布由 10 万个液冷 H100 GPU 组成的超大集群,并宣布未来几个月内还要再增加 10 万颗 GPU 时,业界对 AI 基础设施的衡量标准,一时间变得有些单一——大家更倾向于对比卡的数量,而对集群性能,尤其是特定业务场景下的性能表现,考量不足。

2025 年甫一开年,DeepSeek 就大幅降低了预训练成本,继而在 3 月份,蚂蚁 Ling 团队给出了基于国产算力的新成本优化方案,2025 国产的 GenAI 的主题显然是极为务实的。这种务实的背景是,国内的 AI 应用市场,正处于爆发中,即将到来的是无数挑战传统 SaaS 的 AI 原生应用,以及被智能编程武装起来的“超级团队”。

这些应用和团队需要的是,更有针对性的算力基础设施,更灵活的算力获取方式,更安全可靠的算力获取保障,针对训推一体和多模态数据的全局优化。

算力规模的扩展当然是必需的,也是当下算力开支的主要方向。但在规模问题之外,更紧迫的问题是对基建整体性能的调优。

这事儿听起来没有“堆卡”震撼,但难度却绝不容小觑——这要求头部云厂商,必须开始着手翻新整个基础设施。

推理加速和降本,还有很多“文章”可做

实际上,这种翻新也是有明确“偏好”的,其中最显眼的部分来自 GTC 2025 ,黄仁勋话里话外的意思是:整个 AI 产业正在经历结构性的转变——从做基础模型预训练,转向推理业务。曾经在大模型预训练这条赛道上,抢下行业接近 90% 利润的英伟达, 如今认为,在 2028 年的智算中心预算支出里,推理芯片需求占比将达 70%。

造成这种转变的原因主要有两个:一是可供大模型做预训练的公开数据有限,行业内公开的、深度的数据合作还很少,导致做预训练的规模受限;二是行业已经从“百模大战”的阶段,进入“AI 应用落地”阶段,对推理的需求大幅增加。据 Omdia 在 2024 年年中预测,全球生成式 AI 软件收入在 2024 年增长 124%,复合年增长率将达到 53%。

这其中包含了从 ChatBot 形态的简单推理业务,过渡到覆盖智能驾驶、具身智能、端侧智能等对模型推理表现要求更高的业务场景。

对企业而言,主要是解决四个关键问题:

  1. 如何让大模型的冷启动更快些

  2. 如何让推理的速度更快些

  3. 如何支撑推理业务的流量洪峰

  4. 如何进一步降低网络成本和存储成本

必须要声明的是,以上四个问题都不是新问题,尤其是推理降本,据李飞飞团队发布的报告显示,过去两年间,推理成本已经降低 280 倍。但科技行业始终追求的是复制成本最低,边际效应最大化。所以到了 2025 年,AI 应用落地的进程中,以上技术命题仍然是云服务迭代焕新的主流方向。

而从阿里云在 4 月 9 日 AI 基础设施峰会上的众多发布来看,情况也是如此。阿里云搞定这事儿的核心思路之一,是 PAI 。

据官网介绍,PAI 是阿里云专为开发者打造的一站式机器学习平台,主要由可视化建模(Designer)、交互式建模(DSW)、分布式训练(DLC)、模型在线服务(EAS)等核心功能模块组成。简单理解就是,PAI 解决的是 AI 落地问题,AI 开发在基础设施搭建、工具框架部署、运维合规等方面的复杂工作,帮助企业从 0 到 1 开发、训练、部署、推理一个模型服务,与 AWS SageMaker、Google Vertex AI 相似。

而 PAI 则是通过全新的模型权重服务来解决大模型冷启动,以及提升扩容效率、应对流量洪峰的问题;通过分布式推理引擎 Llumnix 以及流量感知的 PD 分离推理服务共同完成推理加速,最后通过提升 KV Cache 的命中率,来进一步降本。

模型权重服务,简单来说就是围绕模型权重进行管理、存储、分发等操作的一系列服务。模型在首次启动或长时间未使用后重新启动时,需要加载模型权重并准备好进行推理,也就是模型的“冷启动”。所谓“全新模型权重服务”,和冷启动效率的提升关系颇大。

根据本次发布,阿里云官方给出的优化成绩是:缩短大参数模型冷启动时间,0 到 100 节点冷启动加速 21X;50 到 100 节点扩容加速 12X;降低模型存储侧网络压力,减少带宽成本。

而分布式推理引擎 Llumnix,看起来是对标 NVIDIA 开源的 Dynamo 推理框架。Llumnix 通过跨模型实例的请求运行时重新调度来解决 LLM 推理服务中的负载均衡、资源碎片化、优先级区分等问题,通过高效可扩展的实时迁移技术来迁移请求及其内存状态。用一句话总结就是, Llumnix 可以直接影响终端感受到的推理速度。

根据大会发布数据,相比 Round-robin 请求调度,Llumnix 可以将 TTFT P99 响应延迟(从发出请求到第一个 Token 返回)降低最高 92%;TPOT P99 (后续每个 Token 的平均返回时间)响应延迟降低最高 15%。

当然,改善 TPOT 数据表现是一个复合型工程,PD 分离的技术实现情况,也必须被纳入计算。

大模型推理可以笼统分为 Prefill(预填充)阶段和 Decode(解码)阶段,前者处理用户输入的 prompt,生成 KV 缓存(Key-Value Cache),属于计算密集型任务,需要高并行度和显存带宽;后者基于 KV 缓存逐 Token 生成输出,属于存储密集型任务,依赖低延迟的显存访问和高效的批处理调度。

传统操作方式是允许两阶段在同一 GPU 集群运行,但资源争抢会导致吞吐下降和长尾延迟增加。例如,prefill 阶段占用大量算力时,decode 阶段的实时生成能力会被挤压。

所谓 PD 分离,就是对 Prefill(预填充)阶段和 Decode(解码)阶段进行隔离,分别进行资源调度。但仅实现预填充与解码阶段的物理资源隔离也不够好,这缺乏动态调整能力,容易导致预填充集群空闲时解码任务无法抢占资源。

所以阿里云本次发布的是 PAI-EAS 多机 PD 分离部署架构,其核心在于通过分层调度与动态资源协同实现更高效的算力利用和延迟控制,给出的答卷是端到端服务吞吐提升 91%。

这里涉及到两个关键组件:LLM Gateway,LLM Scheduler。前者作为全局流量入口,负责请求的协议转换(REST/GRPC)和负载均衡。后者专为多模态大模型设计的协议适配层,支持文 / 图 / 视频输入的混合解析,并通过请求分片技术将长文本拆解为多段并行预填充(Prefill),解决单机显存不足的问题。

预填充任务在多机 GPU 上并行生成 KV Cache,并通过 RDMA 网络同步至解码集群,并在解码阶段通过动态批处理(Dynamic Batching)聚合多个请求,共享 KV Cache。

而所谓流量感知,是指系统能够实时监测和分析网络流量或请求流量的情况,让智能路由更智能一些。

这里出现的 KV Cache,也是个热门概念。实际上,KV Cache 是 Transformer 架构的核心组件,已成为突破大模型推理性能瓶颈、优化服务经济性的关键基础设施。

原本 KV Cache 的显存占用会随上下文长度线性增长,但 Transformer 架构本来就包含自回归生成时的重复计算,因此留有很大的优化空间。

阿里云这次发布对 KV Cache 做了进一步升级,提升了请求调度效率,使千万级活跃用户场景下, KV Cache 命中率提升 10X。

然而,对于云计算而言,脱离计算、网络、存储这“三大件”去谈推理加速属于“空中楼阁”,而阿里云强化 AI 基础设施的核心落脚点是灵骏集群。

对基础设施的要求,也变了

灵骏集群的主要关注点,仍然是“三大件”,但在侧重场景上,却出现了很大的变化,其中最主要的变量,仍然是从预训练转向推理场景后,构建在 IaaS 层之上的业务场景变化很大。

与预训练业务更偏好高算力 GPU 相比,推理业务更偏好高显存带宽 GPU,存储也需分级缓存,结合对象存储(如 OSS)实现冷热分层。同时也需要算力本身有一定自愈能力,避免对业务造成影响。

在网络层面,预训练业务的需求可以总结为:对吞吐量的要求高,尤其是张量并行通信带宽,但对延迟不敏感,可以接受分钟级的延迟。而推理业务对延迟非常敏感,很多场景都是实时交互,比如自动驾驶决策,且需要应对突发性高并发要求。

至于存储,推理业务更看重对数据访问模式的优化,以及内存显存直连优化,对能效比也更为敏感。

阿里云灵骏集群是支持超大规模 AI 训练与推理的智算基础设施,可提供超大规模、超强性能的智能算力,灵骏集群通过 HPN7.0 高性能网络架构可实现单集群 10 万张 GPU 卡互联,万卡规模下性能线性度可以达到 96%。

在服务器层面,阿里云采用磐久 AI 计算服务器,单台服务器支持 8-16 张 GPU 卡,配备 3.2Tb/s RDMA 网络与 400Gb/s 存储访问网卡,满足大规模紧耦合计算需求。GPU 实例通过硬件级优化(如显存带宽提升、计算指令集加速)实现 MFU(Model FLOPs Utilization)提升 20% 以上。

在 4 月 9 日的 AI 基础设施大会上,能看到灵骏集群的各项数据又有更新,主要是围绕 AI 负载进行优化,包括整合计算(GPU 集群、磐久服务器)、网络(HPN)、存储(CPFS)硬件,搭配统一资源池、全局调度等软件模块,以形成高可靠、高性能的云超级计算机。

具体包括:

EBS:灵骏支持块存储,快速集群扩缩容

CPFS:单客户端吞吐提升至 40GB/s

VPC:VPC 带宽能力全面升级,提升至 200Gbps

HPN 优化:支持 IPV6,全面支持多路径能力,优化专家并行的网络通信性能(性能提升 25%)

优化故障自愈系统:通过 PAI AI Master、AI Task、AI Cluster 与灵骏故障自愈系统、运维监控系统联动,提升系统稳定性与算力利用率。

涵盖了网络、存储和系统稳定性问题,可见阿里云围绕算力有效利用率做了较多工作。

在网络能力的优化方面,灵骏采用多路径并行传输与 IPV6 通信域扩展,显著提升了跨 Segment 的任务处理效率。这显然与今年 AI 应用出海的大趋势是相互呼应的。

在存储方面, CPFS 迎来了升级。

在架构层面,CPFS 采用高性能并行架构,升级了全链路 RDMA 技术、容量性能水平扩展、CIPU 硬件加速隔离、全分布式元数据管理、弹性多租 Serverless 化。而且 CPFS 在 端侧缓存和分层存储有许多优化成绩,包括:弹性文件客户端 EFC 支持分布式缓存(借助 GPU 内存 / 本地盘加速)、支持 KVCache 存储、与 OSS 数据流动(Tb 级带宽)、分层存储。

同时,阿里云 CPFS 文件存储系统经全链路优化,单客户端吞吐性达到 40GB/s,单计算节点缓存吞吐 15GB/s,配合目录级权限控制,在保障模型训练速度的同时实现企业级数据隔离,为大规模 AI 训练提供了高效的存储支持。

阿里云的 CPFS、KV Cache 已经形成了架构上的协同效应——CPFS 以 TB 级吞吐量将模型参数加载至 KV Cache,KV Cache 提供实时 K/V 向量,减少 GPU 显存占用,最后将推理结果异步落盘至 CPFS,支持冷热分层。

除此之外,OSS 对象存储服务的优化也同样值得关注。

阿里云 OSSFS 2.0 在单线程读取 100GB 文件场景中实现吞吐性能提升 7.65 倍,Qwen-2.5-72B 超大规模模型的数据拉取速度提升 7.73 倍,意味着存储层与 AI 算力的协同优化进入了一个新阶段。

同时,资源池 QoS 新增的 BucketGroup 流控能力,实现多 Bucket 业务分组池化管理,将存储资源管理粒度从单点扩展至业务单元。

这也契合企业混合云架构下存储资源集约化运营的趋势,尤其适用于需要跨地域协同的全球化 AI 训练场景。

从地区覆盖来看,新加坡成为继北京、上海等核心节点后第五个具备 100Gbps 缺省读吞吐能力的地域。随着东南亚成为 AI 芯片供应链关键节点,该地域的存储带宽升级可直接支撑 10 万卡级 GPU 集群的并发数据访问需求。结合 OSS 加速器产品吞吐密度提升 50%、最大性能达 100GBps 的能力,阿里云正在构建覆盖训练、推理、边缘计算的全球数据高速公路,为多模态大模型、自动驾驶等场景提供跨地域数据协同的基础支撑。

阿里云 OSS 的升级某种程度上揭示了云存储的进化方向:从被动承接数据存储转向主动参与计算优化。OSSFS 2.0 的突破验证了"存储即服务"向"存储即算力"的范式转换,而 BucketGroup 流控则是进一步加强精细化运营的思想体现。

整体来看,灵骏智算集群和人工智能平台 PAI,已经成为阿里云支撑 AI 推理需求和 AI 应用落地的枢纽,阿里云甚至还在结合自己对客户业务的理解,继续将这种优势外扩,使之也蔓延到了算力高可用、网络安全等其他领域。

AI 应用大热,算力高可用成了必选项

要服务好 AI 应用落地这一宏观趋势,在性能层面满足业务要求,通常是 ToB 业务的准入门槛,能在多大程度上做好高可用以及安全合规服务,对最终业务落地也有较大影响。

由于跟客户走得足够近,云计算企业的嗅觉都很敏锐,因此对算力高可用的关注也比较及时。

在万亿参数模型训练成为行业标配的今天,对服务可用性的要求已从 99.9% 的常规标准,进化为毫秒级响应 + 零故障容忍”的双重阈值。从云服务层面,避免单节点故障造成的推理中断,已经是个必选项,不然成本会高到客户无法忍受。

而这种算力高可用的强需求,主要体现在算力高可用、实时数据同步、动态扩展性等多个方面。

具体来说,MoE 模型的分布式架构需要云计算平台具备跨地域冗余存储和智能流量调度能力,确保单点故障时专家模块的无缝切换,同时需要支持弹性资源分配以应对突发负载,并通过细粒度快照技术实现模型状态与训练数据的实时备份;此外,云计算平台还需要高效的故障检测与自动化恢复机制,并结合增量备份策略,最小化灾难场景下的服务中断时间和数据丢失风险,从而保障大规模 AI 服务连续性。

另一项关乎业务连续性的重要课题是网络安全,在 GenAI 时代,发动一场网络攻击的成本足够低,但危害足够大,共同导致网络安全事件的频发。

这, 就涉及到一个公有云必须解决的关键任务:云产品必须最大限度地集成安全能力,也是阿里云的一项长期工作。

从灵骏智算集群到推理加速,再到算力高可用和云安全,作为国内云计算市场的领头羊,阿里云在本次 AI 基础设施大会上的发布,覆盖的技术领域相当广。在整体的技术和产品进展上,仍处于进攻态势。

业内构建并维护万卡集群的共识是,要求其像“一张卡”一样对外提供服务。但在今天看起来,这是个很粗暴,也很“浪漫主义”的说法。

关于整个集群性能表现、服务能力乃至计费模式,在 GenAI 时代都在出现相应的变化,预计未来半年到一年,围绕这一技术要求,对基础设施的更新速度与优化能力,将成为国内云厂商竞相角逐的关键战场。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一口气签完!中俄这次不绕弯子了,两块宝地拿到手,彻底告别困局

一口气签完!中俄这次不绕弯子了,两块宝地拿到手,彻底告别困局

创造精彩剧情
2026-05-23 11:47:34
塞尔维亚总统武契奇抵达北京开始访华

塞尔维亚总统武契奇抵达北京开始访华

环球网资讯
2026-05-24 12:20:24
刚刚预报:天津有大到暴雨!降雨时间段→

刚刚预报:天津有大到暴雨!降雨时间段→

天津生活通
2026-05-24 12:22:08
袁咏仪戳破方媛天王嫂体面!9年生3胎,仍融不进郭富城的朋友圈

袁咏仪戳破方媛天王嫂体面!9年生3胎,仍融不进郭富城的朋友圈

夜深爱杂谈
2026-05-22 20:19:27
“余生好好走”,知名央视主持人王小丫,病床上的留言字字催泪

“余生好好走”,知名央视主持人王小丫,病床上的留言字字催泪

近史谈
2026-03-31 18:57:49
CBA季后赛最悲壮球员!用了601场才打进总决赛:为冠军他等太久了

CBA季后赛最悲壮球员!用了601场才打进总决赛:为冠军他等太久了

篮球快餐车
2026-05-24 12:00:34
正常人可以偶尔偷吃一颗伟哥吗?有什么副作用?本文为你讲出实情

正常人可以偶尔偷吃一颗伟哥吗?有什么副作用?本文为你讲出实情

健康科普365
2026-05-09 21:05:04
毛主席有多高明?李敏吐露:我跟李讷有摩擦时,爸从不问谁对谁错

毛主席有多高明?李敏吐露:我跟李讷有摩擦时,爸从不问谁对谁错

芳芳历史烩
2026-04-09 22:03:35
赖斯:输曼城被外界嘲讽,自此下决心最后5场不能有丝毫松懈

赖斯:输曼城被外界嘲讽,自此下决心最后5场不能有丝毫松懈

宝哥精彩赛事
2026-05-24 14:23:42
CBA新消息!徐杰离开国家队,郑永刚从深圳离职,孙铭徽脚伤加重

CBA新消息!徐杰离开国家队,郑永刚从深圳离职,孙铭徽脚伤加重

中国篮坛快讯
2026-05-24 11:10:11
美国撤销140亿军售,日本对华态度180度转弯,真缓和还是拖时间?

美国撤销140亿军售,日本对华态度180度转弯,真缓和还是拖时间?

青青子衿
2026-05-22 23:25:18
2026年没过半,雷军就参与了9次IPO了?

2026年没过半,雷军就参与了9次IPO了?

新10亿商业参考
2026-05-21 18:15:52
两天两架接连坠落!巴基斯坦中国产战机接连坠毁,问题出在哪?

两天两架接连坠落!巴基斯坦中国产战机接连坠毁,问题出在哪?

咣当地球
2026-05-23 18:11:38
《主角》楚嘉禾做梦没想到,巴结龚丽丽打压易青娥,却成就了对手

《主角》楚嘉禾做梦没想到,巴结龚丽丽打压易青娥,却成就了对手

陈意小可爱
2026-05-24 14:14:51
记者:M费和埃德松两笔交易独立,不排除曼联双双敲定的可能

记者:M费和埃德松两笔交易独立,不排除曼联双双敲定的可能

懂球帝
2026-05-24 12:22:04
血赚!阿森纳 4500 万抄底曼城弃将!瓜迪奥拉看走眼的赖斯 2.0!

血赚!阿森纳 4500 万抄底曼城弃将!瓜迪奥拉看走眼的赖斯 2.0!

澜归序
2026-05-24 04:46:31
比土木还崩的专业,从年薪20万跌到月薪2500,毕业即转行!

比土木还崩的专业,从年薪20万跌到月薪2500,毕业即转行!

番外行
2026-05-24 09:20:04
这个时代第一人!连续8赛季联赛金靴,世界杯再进4球超大罗登顶

这个时代第一人!连续8赛季联赛金靴,世界杯再进4球超大罗登顶

体育世界
2026-05-24 14:24:05
山西发生中毒事件已致1死5伤

山西发生中毒事件已致1死5伤

中国能源网
2026-05-24 00:40:10
女大学生宿舍试穿抹胸裙走红,曼妙身材圈粉无数,露脸后却遭恶评

女大学生宿舍试穿抹胸裙走红,曼妙身材圈粉无数,露脸后却遭恶评

捣蛋窝
2026-05-21 06:40:07
2026-05-24 15:36:49
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
12423文章数 51901关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

男子不慎踩中蛇窝一小时后陷入休克:左脚被咬10多口

头条要闻

男子不慎踩中蛇窝一小时后陷入休克:左脚被咬10多口

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

李晨郑恺冲上热搜!跑男停宣引热议

财经要闻

爆炸致82人遇难 留神峪煤业存违法行为

汽车要闻

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

教育
健康
游戏
本地
公开课

教育要闻

第06课-如何利用互联网资源提高口语能力

外泌体 ≠ 生长因子!它们之间究竟有何区别?

挂哥哭晕!无畏契约大量封杀硬件外挂 4万元设备报废

本地新闻

用云锦的方式,打开江苏南京

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版