PPIO CEO姚欣：AI应用即将迎来免费时代｜甲子引力|推理|云计算|ppio|人工智能领域

分享至

未来1-2年内，关键拐点即将到来：通过免费广告模式，AI应用的收入将足以覆盖推理成本。

2024年12月10日—12月11日，“万千流变，一如既往”2024甲子引力年终盛典在北京中关村国家自主创新示范区展示中心举办。70多位科技行业重要嘉宾带来了关于人工智能、机器人、科学智能、新质生产力等领域的最新分享和深刻洞见，其中大量内容为行业首发。

现场，PPIO派欧云联合创始人兼CEO，PPTV创始人姚欣为观众带来了主题为《PPIO派欧云实践与洞察：从算力过剩到推理制胜》的分享。

姚欣认为如今大模型虽点燃智算中心建设，但也面临使用率较低的问题，同时需求侧从 2023 年上半年的大模型创业训练热到后来热度降温，算力结构发生转变。

当前AI 应用需求正在发生变迁，大模型正从 To VC 泡沫炒作阶段走向 To B 落地阶段，未来可能走向 To C 阶段，当前制约在于 AI 推理成本，成本降低后将迎来应用爆发。企业可以进行推理成本优化，包括硬件降本（如硬件梯次利用）、算力调度（按需求波峰波谷配置资源）和推理加速。

同时他预计，2025 - 2026 年是 AI 转折年，随着AI推理成本每年近十倍的下降，大量AI 应用的收入将足以覆盖所有的推理成本，AI 应用将迎来免费时代。

以下是PPIO派欧云CEO姚欣演讲实录，「甲子光年」整理删改：

我的新创业项目叫PPIO派欧云，我们在AI时代进行了一些探索和思考，今天的主题是 “算力过剩到推理制胜”。

作为一名连续创业者，我从2004年PPTV创业开始，经历了从PC互联网到移动互联网的创业历程。我的第二段经历是2016-2018年在蓝驰创投做投资人，正赶上千团大战、百车大战。当时，我们看到大量资源被浪费，就像当年共享单车变成七色彩虹式的过度堆砌。与此同时，随着新基建的推进，大量数字基础设施也在快速建设中。

这些建设在后期面临了一系列挑战。我整理了一些数据，结合当前行业现状，回顾一下历史。

从2015、2016年开始，数字新基建持续发展，每年互联网数据中心的增速保持在30%-50%之间，机架上架数量在300万到1000万之间。

2019年，戴德梁行发布的IDC报告显示，互联网数据中心的上架率和区域分布密切相关。在北上广深地区，机房空间利用率能达到58%-70%。然而，在其他地区，尤其是数据中心建设最密集的贵州、内蒙古等地，利用率仅为34%。全国平均来看，机房利用率不到50%，这就是上一波IDC数据新基建时出现的“IDC过剩”现象。

去年大模型点燃了新一代智算中心的建设。今年前七个月，全国新建了约140个智算中心。虽然这个绝对数量还跟当年百万级的数据中心没法比，但是随着未来两年大量投产落地之后，必然会面临着使用率较低的情况。

根据信通院在两个月前发布的调研报告，过去两年建设的智算中心，整体平均利用率约为30%。尽管如此，智算中心仍在持续建设中。由此可以推测，超前建设的智算中心可能会面临像当年IDC数据中心一样的算力过剩问题，这也是供给侧所面临的挑战。

转向需求侧，2023年上半年大模型迎来爆发，业内普遍认为大模型是未来发展的关键，纷纷投身大模型的创业和训练。去年10月美国商务部对中国高端芯片实施禁运后，市场出现了算力短缺的局面。

然而，进入2024年，大模型热度明显降温，其中一个典型表现是，参与大模型预训练的企业数量显著下降。据最新媒体报道，国内至少有两家大模型公司已经放弃了预训练方向。

此外，今年年中发布的o1模型展现了一个新趋势，传统的Scaling Law主要依赖于大量数据和算力的堆积，训练出一个足够好的模型。但随着数据逐渐“枯竭”，这个规律也在发生转变。新的Scaling Law正在从预训练转向后训练，后训练包括微调和推理环节。

国内公司如Kimi等，已经推出了一系列强化措施，采用更多推理侧算力，增加推理次数，通过思维链等新技术，进一步提升模型性能和推理效果，使得模型在处理复杂问题时的逻辑性更强。这一变化已成为当前行业发展的一个显著趋势。

还有一个热点，本周大家都关注OpenAI的发布会。我们也一直在关注音视频生成领域，部分原因是我早期在PPTV就参与了视频服务的相关工作。回顾互联网基础设施的变革，从文字、图片时代到视频时代的演进，带来了巨大的变化。

今天如果要同样的生成一分钟的视频，它的token消耗可能相当于数万倍文字生成的资源需求，所以说别看小小的一分钟的Sora的视频，这些新一代多模态大模型会带来更大的推理消耗。

1.回溯，趋势在哪里？

这是我们对算力需求变迁的观察，但我们需要站得更高一些，从更广的视角来看问题，关注最终的应用需求将如何演变。在此，我并未专门讲述今天的AI，而是想分享我在PC互联网和移动互联网发展过程中观察到的一些趋势。

根据Gartner技术曲线，技术的发展通常经历三个阶段：首先是技术泡沫的炒作和破灭，然后进入到应用落地的阶段，最终迎来稳定增长的“光明期”。这三个阶段分别是面向VC的炒作阶段、面向B端的应用落地阶段，以及面向C端的大规模应用阶段。我相信，大家现在可以感受到，大模型正处于泡沫炒作阶段的尾声，开始进入到To B的落地阶段。而我们认为，未来它将逐步走向To C阶段。

为什么我们认为AI应用最终会走向To C呢？回顾移动互联网的发展历程，我们可以看到，大约十年的时间内，应用逐步成熟，技术成本不断降低。这其中包括移动设备的成本，早期iPhone的售价差不多5000元，而后小米推出千元机，红米开始推出更为亲民的入门机型，至2014年、2015年，智能手机的成本急剧下降。

与此同时，通信资费也发生了巨大的变化。早期3G网络下，1GB流量的费用可能高达几十元，而进入4G时代后，这个价格降到了几元，甚至推出了包月流量服务。正是因为互联网流量资费的下降，以及手机硬件成本的显著降低，才促进了移动互联网的爆发式增长。

这一现象呈现出一个明显的趋势：在移动互联网应用落地的早期，通常是生产力类的工具占主导，包括办公、通讯、商旅，再到商业服务、电商购物等，而随着发展，移动互联网逐渐转向更多娱乐、休闲、消费等应用。

因此，我们预见AI应用也会经历类似的过程。目前，AI的成本正在快速下降，但尚未足够低廉，尚无法普遍覆盖所有应用场景。只有那些商业模式非常明确的To B应用，或者具备生产力功能的To C工具，才能承受当前的成本。

不过，我们相信，随着技术的进一步发展，一定会有一个关键的交叉点，就像2014年、2015年间的移动互联网一样。那时，即使是依靠免费广告模式，也足以覆盖视频成本，抖音、快手等应用也是在那个时候迎来了爆发式的增长。我们相信，AI的应用也将迎来类似的时刻。

2.推理成本如何优化？

既然推理成本是一个至关重要的因素，我们来探讨一下推理成本究竟还有多少优化空间？PPIO派欧云作为一家分布式云计算企业，我们从最底层的IaaS基础设施，到PaaS平台服务，再到上面的大模型应用服务，进行了一次自下而上端到端的全程观察。

我们的观察，推理成本的下降主要源自三大方面的优化。首先是硬件成本的降低，这包括如何找到更便宜的电力资源，国家提出的“东数西算”政策便是这一思路的体现。此外，我们还在探索如何充分利用硬件资源。例如，刚才袁总提到的，通过使用4090游戏卡替代，降低了硬件的整体成本。

具体来看，硬件的“梯次利用”也是一个重要趋势。以A100为例，虽然它逐渐从训练市场淡出，并且已经投入使用超过三年，成本摊销大多已经完成，但在推理任务中，A100的性能依然能够保持较高效能。因此，我们认为像A100这样的“老卡”不应当被一次性淘汰，而是可以继续用于推理任务，这就是我们提到的硬件降本中的一个重要环节。

第二个降本方式来自于算力调度。推理跟训练有什么区别？训练任务通常是密集且持续的，集群资源在训练期间几乎完全占用，且持续几个月。

但推理不同，推理则与用户的访问行为密切相关。白天工作时间内，生产力工具的需求较高，晚间则是娱乐需求的高峰期，而到深夜几乎没有用户。因此，推理需求通常呈现波峰波谷效应，你在做资源配置时，往往需要按最高峰期的需求进行配置，导致波谷期资源的浪费。

因此，优化算力的调度和复用是降低推理成本的关键之一。通过合理调度和复用资源，可以大幅度提高资源的利用效率，甚至节省数倍的成本。

第三层的降本措施是推理加速。针对大模型和其他类型的模型，我们有一系列加速技术，可以显著提升推理效率。这些加速技术与硬件利用、算力调度相结合，形成了一个多层次的降本体系。

总体来说，硬件降本、算力调度优化和推理加速这三方面的改进，综合起来为推理成本的持续下降提供了巨大的潜力，今年带来90%的降本空间，甚至综合起来还有一个持续的降本空间。这也是我们在观察中得出的结论。

3.PPIO派欧云实践有哪些？

接下来，我将具体介绍PPIO派欧云的思考和实践。首先，我们关注硬件方面：如何找到更便宜的电力、更丰富的GPU资源，甚至包括那些已经建设完成但未得到充分利用的二手训练卡？这也是我们多年来积累的经验和资源。

因为自2018年成立以来，PPIO派欧云一直致力于分布式云计算的建设。与传统的云计算中心不同，我们在全国各地部署了大量计算节点，这些节点整合了大量中国IDC机房的计算资源。到目前为止，我们已经在全国1200多个城市，以及亚洲的1300多个城市与本地合作伙伴建立了合作，通过这些合作伙伴整合各类算力资源，加入到我们的算力共享平台中。

这些节点中，部分具备GPU资源，包括训练卡、计算卡和推理卡等能力。通过这种方式，我们不断优化硬件资源的配置，实现硬件成本的最大化利用和摊销。比如，蓝色的点标示的是我们的网络覆盖范围，绿色的点则是我们已经开始整合的智能计算资源和GPU资源。

第二，算力调度至关重要。不同区域的电费、物价，甚至机房运维的成本差异极大。例如，即使是在同一省份，省会城市与地级市、县级市的电价差距可能达到1-2倍。此外，不同地区的需求也有所不同，不同时间段的需求波动也非常明显。因此，算力的调度必须时刻进行调整和优化。

调度的难点在于如何准确预测需求。在算力需求激增时，我们不能等到需求爆发后再进行调度，必须提前做好调度和资源分配。就像滴滴出行提前调度车辆一样，我们需要预判用户行为并进行相应部署。幸运的是，人工智能和机器学习技术的进步，我们可以通过机器学习预测和洞察需求行为的未来趋势，从而实现智能调度，提前部署数据与计算任务，实现资源高效利用和全局负载平衡，确保算力供需匹配及运行成本最优。

第三，推理加速是我们重点关注的领域。目前，大模型在推理任务中，使用GPU作为计算架构并非最优选择。GPU是一种通用计算架构，既可用于训练，也可用于推理。然而，推理任务的特点是：它类似短跑，要求以最快的速度、最低的成本将训练结果快速呈现。

推理卡的瓶颈通常不在芯片的计算能力，往往在于显存和IO吞吐量的问题。当模型参数过大，无法在单台机器中存储时，频繁的数据吞吐和调度会导致延迟。我们通过一系列技术手段，包括有损和无损优化，来解决这些问题。

PPIO派欧云结合产学研最新成果，包括来自于整个系统架构领域最新的技术研发成果，我们将这一系列先进技术全面整合到工程能力和实际使用能力中，在成本与性能之间实现最佳平衡。

从实际数据来看，我们已经取得了显著的成本降低。以一个典型的8B模型为例，该模型在今年4月发布时，在我们PPIO平台上，百万token的费用大约为0.1美元，但到了今年11月，价格已经降至4分钱。我们预计，到明年4月，也就是模型发布一年后，成本还将进一步下降至当时的1/10。

这种降本不是通过补贴实现的，而是通过高效的资源整合和调度、优化硬件利用率，以及提升模型性能、推理加速来达到的。通过这些措施，我们成功实现了推理成本的十倍下降，为我们的客户提供了更高的性价比，这样的降本能力也能够去助推我们客户一系列的发展。

例如，我们为一家知名的小说推文APP提供服务，他们采用我们的模型能力替代自有的模型架构。这不仅使其推理成本降低了70%，而且生图速度提升了5倍，最终业务用量和营收在短短一个月内实现了3倍多的增长。

同样，我们也将业务扩展到海外。在海外市场，我们通过类似的资源整合和大模型技术应用，帮助全球Top10招聘网站通过大语言模型进行简历筛选和优化，显著减少了人工需求。以前需要近百人的简历优化团队，现在仅需5人即可完成同样的工作，这为客户带来了显著的业务增长。

我们中国企业在AI云计算领域取得的技术积累和资源优势，使得我们具备了与全球一流云计算公司和硅谷创新公司的竞争力。通过合理的成本控制和高效的性能优化，我们的技术和服务在全球市场上都表现出强大的竞争优势，包括图示的3B小模型和70B大模型，企业最常用的这种微调大模型，这些场景里面，我们都能具备很强的竞争能力。

我看今天大家都在探讨明年，我的看法是2025-2026年，AI应用将迎来大规模落地，随着AI推理成本每年近十倍的下降，关键拐点即将到来：通过免费广告模式，AI应用的收入将足以覆盖推理成本。

这意味着，我们可以用免费的广告模式来吸引千万级用户，快速扩展市场，大家无需支付10美金、200美金高额费用购买服务。这种模式将毫无疑问极大推动C端用户的增长和消费，获得巨大的流量增长，迎来AI应用的大爆发。

我们期待这一刻的到来， AI应用将进入真正的“免费时代”，为AI行业带来前所未有的增长和变革。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.