仅靠CPU也能跑DeepSeek、QwQ！浪潮更懂中小企业的AI服务器来了|cpu|浪潮集团|知名企业|deepseek

仅靠CPU也能跑DeepSeek、QwQ！浪潮更懂中小企业的AI服务器来了

2025-03-25 19:01:22　来源: 智东西

北京举报

分享至

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。

作者 | 陈骏达
编辑 | 漠影

2025年，以DeepSeek、QwQ等为代表的推理大模型火爆全球，并在复杂任务上展现出强大实力。这也让不少企业考虑，如何能利用此轮推理大模型的技术进步，来优化自身的决策、提升企业运行效率并促进创新。

然而，传统的CPU服务器在处理当前的AI推理需求时显得力不从心，而GPU推理服务器动辄上百万的高昂成本又将许多中小企业挡在门外。

在这样的背景下，市场亟需一种既能控制成本又能保证性能的服务器解决方案，以满足企业对便捷、高性价比AI推理服务的需求。

随着AI技术的快速发展，CPU服务器也在不断进化。近日，浪潮信息发布的元脑CPU推理服务器，能高效运行DeepSeek-R1 32B和QwQ-32B等适合企业日常需求的推理模型，还能与企业原有的业务兼容，具备性价比高、运维简单等优势。

▲元脑CPU推理服务器，基于QwQ-32B模型生成猜数字游戏

在GPU服务器之外，新一代CPU推理服务器为企业提供了快速、易获取且低成本的算力供给，正成为更多企业的理想选择。

一、跑大模型GPU并非唯一解，CPU推理服务器成中小企业理想新选择

当谈及部署大模型时，不少企业的第一反应都是“买卡”。的确，在大模型训练、推理的场景中，GPU加速卡凭借强大的浮点运算能力和大规模并行处理架构，在高吞吐量的AI推理任务上展现出明显优势。

但GPU并不是唯一解。

CPU更擅长处理复杂的逻辑运算和通用计算任务，虽然在高并行计算任务上不如GPU，但在处理多样化工作负载（如数据库查询、业务逻辑处理）时性能表现优秀。而且，随着技术的不断迭代，具备AI计算能力的CPU服务器也开始在AI推理场景中展现独到优势。

在大模型推理过程中，不少模型采用KV Cache（键值缓存），用于存储解码过程中生成的中间结果，以减少重复计算，提升推理效率。随着模型规模的增大，KV Cache的存储需求也随之增加。

与GPU服务器相比，CPU推理服务器以更低的硬件投入，支持更大容量的系统内存，能够轻松存储更大规模的KV Cache，避免频繁的数据交换，从而提升推理效率。CPU推理服务器还可通过多通道内存系统，进一步支持大规模KV Cache的高效访问。

当CPU推理服务器与高效的中等尺寸推理模型结合后，能够形成显著的协同效应，在保证性能的同时进一步压缩成本。

以业界多款32B推理模型为例，这些模型通过采用更高效的注意力机制、模型量化与压缩技术以及KV Cache优化，显著降低了计算和存储需求。例如，DeepSeek-R1 32B在知识问答、智能写作和内容生成等方面表现优异，而QwQ-32B则在数学推理、编程任务和长文本处理等领域展现出强大的性能。

此外，DeepSeek-R1 32B和QwQ-32B的训练数据中包含了海量的高质量中文语料库，使其更加适合国内企业的应用需求。

在企业知识库问答、文档写作、会议纪要整理等场景中，32B参数级别的模型往往是最佳选择，既能提供强大的能力支持，又能保持合理的硬件投入，仅基于CPU推理服务器，企业用户即可实现本地化部署，满足对性能、成本和易用性的多重需求。

从成本角度来看，相比GPU服务器高昂的硬件成本，更严格的电源、散热和机架空间，CPU服务器对环境的要求较为宽松，对于轻量使用和预算有限的企业而言，更具性价比。

二、软硬件协同优化成效显著，解码速度翻番、效率提升至4倍

浪潮信息本次推出的元脑CPU推理服务器，正是这样一款支持中等尺寸模型推理，能为中小企业提供高效AI推理服务的CPU推理服务器。

在实际测试中，单台元脑CPU推理服务器在使用DeepSeek-R1 32B进行带思维链深度思考的短输入长输出的问答场景下，解码性能超过20tokens/s，20个并发用户下，总token数达到255.2tokens/s。

▲基于DeepSeek-R1 32B 并发性能测试数据

在使用QwQ-32B进行模型推理时，20个并发用户数下总token数达到224.3tokens/s，可以提供流畅稳定的用户体验。

▲基于QwQ-32B 并发性能测试数据

元脑CPU推理服务器的性能，得益于浪潮信息的软硬件协同优化。

算力方面，元脑CPU推理服务器采用4颗32核心的英特尔至强处理器6448H，具有AMX（高级矩阵扩展）AI加速功能，支持张量并行计算。与传统双路服务器方案的有限内存不同，元脑CPU推理服务器的多通道内存系统设计可支持32组DDR5内存。

在这些硬件的加持下，元脑CPU推理服务器单机具备BF16精度AI推理能力、最大16T内存容量和1.2TB/s内存带宽，可以更好满足模型权重、KV Cache等计算和存储需求，快速读取和存储数据，大幅提升大模型推理性能。

▲元脑CPU推理服务器NF8260G7配置

在算法方面，元脑CPU推理服务器对业界主流的企业级大模型推理服务框架vLLM进行深度定制优化，通过张量并行和内存绑定技术，充分释放服务器CPU算力和内存带宽潜能，实现多处理器并行计算，效率最高提升至4倍。

面对内存带宽的挑战，元脑CPU推理服务器为进一步提升解码性能，采用了AWQ（Activation-aware Weight Quantization激活感知权重量化）技术。

AWQ技术能确定模型中对性能影响最大的少部分重要权重，并通过保护这些权重来减少量化带来的误差。AWQ还避免了混合精度计算带来的硬件效率损失。

采用了AWQ的元脑CPU推理服务器在解码任务中的性能提升了一倍，让大模型在保持高性能的同时，跑得更快、更省资源。

元脑CPU推理服务器还通过浪潮信息打造的AI Station平台，支持用户灵活选择适配的大模型算法，包括DeepSeek全系模型、QwQ和Yuan等不同参数量的模型。

三、更懂中小企业需求，通用性、成本效益突出

在智东西与浪潮信息副总经理赵帅的沟通中，我们了解到，元脑CPU推理服务器仅推出1周，便吸引了多家来自大模型、金融、教育等行业的客户咨询和测试，这款CPU推理服务器精准地填补了中小企业市场中的一个关键空白。

目前，许多企业对将私有数据上云仍持保留态度，更倾向于在本地完成AI推理任务。然而，如果企业选择使用GPU服务器来部署高性能AI模型，往往需要承担高昂的初始投资成本。对于中小企业而言，这种投资的性价比并不高——它们通常不需要极致的AI性能或超高的并发处理能力，而是更关注易于部署、易于管理、易于使用的入门级AI推理服务。

在这种情况下，生态更为成熟、开发工具更为健全的CPU推理服务器展现出了显著的优势。CPU推理服务器不仅能够更好地融入企业现有的IT基础设施，还因其通用性而具备更高的灵活性。

与专用AI硬件（如GPU服务器）不同，CPU推理服务器在AI推理需求空闲期，还可以兼顾企业的其他通用计算需求，如数据库管理、ERP系统运行等，从而最大化硬件资源的利用率。

在部署便捷性方面，元脑CPU推理服务器功耗2000W左右，降低了对供电设备的要求，还使得服务器的冷却需求大幅减少，仅需家用级空调即可满足散热要求。这意味着元脑CPU推理服务器能够轻松适应大部分企业自建的小型机房环境，无需额外投资高成本的冷却设施或对现有机房进行大规模改造。

元脑CPU推理服务器还具备高可靠性的特点，平均无故障时间可达200000小时，能够保障关键应用和AI推理任务的持续稳定运行。这一特性对于企业来说尤为重要，尤其是在金融、医疗、制造等对系统稳定性要求极高的行业中，高可靠性意味着更低的业务中断风险和更高的运营效率。

谈及未来，赵帅分享，浪潮信息还将进一步提升元脑CPU推理服务器的能力。依托于融合架构开发的经验积累，他们已在开发内存资源池化的新技术，结合长文本等算法特征进行软件优化，更好地支持企业的使用需求。

结语：CPU推理服务器有望推动AI普惠

随着AI技术往行业深水区发展，大模型推理需求正从大型企业逐步向中小企业渗透，从少部分企业所享有的“奢侈品”转化为大部分企业的“必需品”。

在这一进程中，如元脑CPU推理服务器这样的高性价比AI推理解决方案，有望成为中小企业实现AI普及化和行业智能化的重要工具。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.