网易首页 > 网易号 > 正文 申请入驻

仅靠CPU也能跑DeepSeek、QwQ!浪潮更懂中小企业的AI服务器来了

0
分享至

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。

作者 | 陈骏达
编辑 | 漠影

2025年,以DeepSeek、QwQ等为代表的推理大模型火爆全球,并在复杂任务上展现出强大实力。这也让不少企业考虑,如何能利用此轮推理大模型的技术进步,来优化自身的决策、提升企业运行效率并促进创新。

然而,传统的CPU服务器在处理当前的AI推理需求时显得力不从心,而GPU推理服务器动辄上百万的高昂成本又将许多中小企业挡在门外。

在这样的背景下,市场亟需一种既能控制成本又能保证性能的服务器解决方案,以满足企业对便捷、高性价比AI推理服务的需求。

随着AI技术的快速发展,CPU服务器也在不断进化。近日,浪潮信息发布的元脑CPU推理服务器,能高效运行DeepSeek-R1 32B和QwQ-32B等适合企业日常需求的推理模型,还能与企业原有的业务兼容,具备性价比高、运维简单等优势。

▲元脑CPU推理服务器,基于QwQ-32B模型生成猜数字游戏

在GPU服务器之外,新一代CPU推理服务器为企业提供了快速、易获取且低成本的算力供给,正成为更多企业的理想选择。

一、跑大模型GPU并非唯一解,CPU推理服务器成中小企业理想新选择

当谈及部署大模型时,不少企业的第一反应都是“买卡”。的确,在大模型训练、推理的场景中,GPU加速卡凭借强大的浮点运算能力和大规模并行处理架构,在高吞吐量的AI推理任务上展现出明显优势。

但GPU并不是唯一解。

CPU更擅长处理复杂的逻辑运算和通用计算任务,虽然在高并行计算任务上不如GPU,但在处理多样化工作负载(如数据库查询、业务逻辑处理)时性能表现优秀。而且,随着技术的不断迭代,具备AI计算能力的CPU服务器也开始在AI推理场景中展现独到优势。

在大模型推理过程中,不少模型采用KV Cache(键值缓存),用于存储解码过程中生成的中间结果,以减少重复计算,提升推理效率。随着模型规模的增大,KV Cache的存储需求也随之增加。

与GPU服务器相比,CPU推理服务器以更低的硬件投入,支持更大容量的系统内存,能够轻松存储更大规模的KV Cache,避免频繁的数据交换,从而提升推理效率。CPU推理服务器还可通过多通道内存系统,进一步支持大规模KV Cache的高效访问。

当CPU推理服务器与高效的中等尺寸推理模型结合后,能够形成显著的协同效应,在保证性能的同时进一步压缩成本。

以业界多款32B推理模型为例,这些模型通过采用更高效的注意力机制、模型量化与压缩技术以及KV Cache优化,显著降低了计算和存储需求。例如,DeepSeek-R1 32B在知识问答、智能写作和内容生成等方面表现优异,而QwQ-32B则在数学推理、编程任务和长文本处理等领域展现出强大的性能。

此外,DeepSeek-R1 32B和QwQ-32B的训练数据中包含了海量的高质量中文语料库,使其更加适合国内企业的应用需求。

在企业知识库问答、文档写作、会议纪要整理等场景中,32B参数级别的模型往往是最佳选择,既能提供强大的能力支持,又能保持合理的硬件投入,仅基于CPU推理服务器,企业用户即可实现本地化部署,满足对性能、成本和易用性的多重需求。

从成本角度来看,相比GPU服务器高昂的硬件成本,更严格的电源、散热和机架空间,CPU服务器对环境的要求较为宽松,对于轻量使用和预算有限的企业而言,更具性价比。

二、软硬件协同优化成效显著,解码速度翻番、效率提升至4倍

浪潮信息本次推出的元脑CPU推理服务器,正是这样一款支持中等尺寸模型推理,能为中小企业提供高效AI推理服务的CPU推理服务器。

在实际测试中,单台元脑CPU推理服务器在使用DeepSeek-R1 32B进行带思维链深度思考的短输入长输出的问答场景下,解码性能超过20tokens/s,20个并发用户下,总token数达到255.2tokens/s。

▲基于DeepSeek-R1 32B 并发性能测试数据

在使用QwQ-32B进行模型推理时,20个并发用户数下总token数达到224.3tokens/s,可以提供流畅稳定的用户体验。

▲基于QwQ-32B 并发性能测试数据

元脑CPU推理服务器的性能,得益于浪潮信息的软硬件协同优化。

算力方面,元脑CPU推理服务器采用4颗32核心的英特尔至强处理器6448H,具有AMX(高级矩阵扩展)AI加速功能,支持张量并行计算。与传统双路服务器方案的有限内存不同,元脑CPU推理服务器的多通道内存系统设计可支持32组DDR5内存。

在这些硬件的加持下,元脑CPU推理服务器单机具备BF16精度AI推理能力、最大16T内存容量和1.2TB/s内存带宽,可以更好满足模型权重、KV Cache等计算和存储需求,快速读取和存储数据,大幅提升大模型推理性能。

▲元脑CPU推理服务器NF8260G7配置

在算法方面,元脑CPU推理服务器对业界主流的企业级大模型推理服务框架vLLM进行深度定制优化,通过张量并行和内存绑定技术,充分释放服务器CPU算力和内存带宽潜能,实现多处理器并行计算,效率最高提升至4倍。

面对内存带宽的挑战,元脑CPU推理服务器为进一步提升解码性能,采用了AWQ(Activation-aware Weight Quantization激活感知权重量化)技术。

AWQ技术能确定模型中对性能影响最大的少部分重要权重,并通过保护这些权重来减少量化带来的误差。AWQ还避免了混合精度计算带来的硬件效率损失。

采用了AWQ的元脑CPU推理服务器在解码任务中的性能提升了一倍,让大模型在保持高性能的同时,跑得更快、更省资源。

元脑CPU推理服务器还通过浪潮信息打造的AI Station平台,支持用户灵活选择适配的大模型算法,包括DeepSeek全系模型、QwQ和Yuan等不同参数量的模型。

三、更懂中小企业需求,通用性、成本效益突出

在智东西与浪潮信息副总经理赵帅的沟通中,我们了解到,元脑CPU推理服务器仅推出1周,便吸引了多家来自大模型、金融、教育等行业的客户咨询和测试,这款CPU推理服务器精准地填补了中小企业市场中的一个关键空白。

目前,许多企业对将私有数据上云仍持保留态度,更倾向于在本地完成AI推理任务。然而,如果企业选择使用GPU服务器来部署高性能AI模型,往往需要承担高昂的初始投资成本。对于中小企业而言,这种投资的性价比并不高——它们通常不需要极致的AI性能或超高的并发处理能力,而是更关注易于部署、易于管理、易于使用的入门级AI推理服务。

在这种情况下,生态更为成熟、开发工具更为健全的CPU推理服务器展现出了显著的优势。CPU推理服务器不仅能够更好地融入企业现有的IT基础设施,还因其通用性而具备更高的灵活性。

与专用AI硬件(如GPU服务器)不同,CPU推理服务器在AI推理需求空闲期,还可以兼顾企业的其他通用计算需求,如数据库管理、ERP系统运行等,从而最大化硬件资源的利用率。

在部署便捷性方面,元脑CPU推理服务器功耗2000W左右,降低了对供电设备的要求,还使得服务器的冷却需求大幅减少,仅需家用级空调即可满足散热要求。这意味着元脑CPU推理服务器能够轻松适应大部分企业自建的小型机房环境,无需额外投资高成本的冷却设施或对现有机房进行大规模改造。

元脑CPU推理服务器还具备高可靠性的特点,平均无故障时间可达200000小时,能够保障关键应用和AI推理任务的持续稳定运行。这一特性对于企业来说尤为重要,尤其是在金融、医疗、制造等对系统稳定性要求极高的行业中,高可靠性意味着更低的业务中断风险和更高的运营效率。

谈及未来,赵帅分享,浪潮信息还将进一步提升元脑CPU推理服务器的能力。依托于融合架构开发的经验积累,他们已在开发内存资源池化的新技术,结合长文本等算法特征进行软件优化,更好地支持企业的使用需求。

结语:CPU推理服务器有望推动AI普惠

随着AI技术往行业深水区发展,大模型推理需求正从大型企业逐步向中小企业渗透,从少部分企业所享有的“奢侈品”转化为大部分企业的“必需品”。

在这一进程中,如元脑CPU推理服务器这样的高性价比AI推理解决方案,有望成为中小企业实现AI普及化和行业智能化的重要工具。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“偷拍女生裙底”被开除学籍的顾某某,未在江苏省税务局补录公务员体检入围人员名单中

“偷拍女生裙底”被开除学籍的顾某某,未在江苏省税务局补录公务员体检入围人员名单中

都市快报橙柿互动
2026-05-25 21:59:57
邮报:瓜迪奥拉与分居妻子疑似和解

邮报:瓜迪奥拉与分居妻子疑似和解

懂球帝
2026-05-25 18:00:06
关系里的隐形规则,只针对男人

关系里的隐形规则,只针对男人

晚风寄温柔
2026-05-25 00:32:23
恶性肿瘤最危险信号,不是疼痛,而是频繁出现这几种异常

恶性肿瘤最危险信号,不是疼痛,而是频繁出现这几种异常

芹姐说生活
2026-05-25 23:01:00
演员千万别整容!看肖战,蓝盈莹“澳门红毯”同框,就懂了!

演员千万别整容!看肖战,蓝盈莹“澳门红毯”同框,就懂了!

小娱乐悠悠
2026-05-23 11:52:30
日经225暴涨超1700点创历史新高,半导体全线大涨,黄金白银飙升

日经225暴涨超1700点创历史新高,半导体全线大涨,黄金白银飙升

21世纪经济报道
2026-05-25 08:49:32
外媒:中国J-16挂8枚PL-15,令美日欧恐慌

外媒:中国J-16挂8枚PL-15,令美日欧恐慌

世家宝
2026-05-25 19:54:48
大战将至?伊万卡遭暗杀!特朗普怒锁白宫,美军取消休假集体待命

大战将至?伊万卡遭暗杀!特朗普怒锁白宫,美军取消休假集体待命

锅锅爱历史
2026-05-25 01:52:02
币安创始人赵长鹏在迪拜冲浪失联?本人回应:假新闻

币安创始人赵长鹏在迪拜冲浪失联?本人回应:假新闻

界面新闻
2026-05-25 15:29:39
他长相老气,才37岁却像57岁,竟然是秦腔名角,出演《主角》火了

他长相老气,才37岁却像57岁,竟然是秦腔名角,出演《主角》火了

白面书誏
2026-05-25 14:28:50
霍尔木兹海峡传来大消息!卡塔尔媒体:伊朗官员表示,将分阶段开放!国际油价大跌至90美元附近

霍尔木兹海峡传来大消息!卡塔尔媒体:伊朗官员表示,将分阶段开放!国际油价大跌至90美元附近

每日经济新闻
2026-05-25 19:57:08
既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

安安说
2026-02-01 14:01:51
CBA总决赛!上海男篮vs浙江广厦,赛前带来上海男篮张镇麟、王哲林、洛夫顿以及浙江广厦孙铭徽、胡金秋最新消息

CBA总决赛!上海男篮vs浙江广厦,赛前带来上海男篮张镇麟、王哲林、洛夫顿以及浙江广厦孙铭徽、胡金秋最新消息

凯丰侃球
2026-05-26 00:12:41
女子领证21天后输液休克,涉嫌非法行医的内勤人员处罚结果尚未作出,丈夫:她昏迷了几个月现已苏醒,有时哭有时笑

女子领证21天后输液休克,涉嫌非法行医的内勤人员处罚结果尚未作出,丈夫:她昏迷了几个月现已苏醒,有时哭有时笑

极目新闻
2026-05-25 19:14:59
韩国超模自曝身材烦恼:太丰满也是一种负担,1个穿搭秘诀化解困扰

韩国超模自曝身材烦恼:太丰满也是一种负担,1个穿搭秘诀化解困扰

赴一场山海啊
2026-05-25 00:12:48
郑钦文法网首轮出局!扣420分世界排名跌至第117 已成中国四姐

郑钦文法网首轮出局!扣420分世界排名跌至第117 已成中国四姐

念洲
2026-05-25 18:45:55
男性相亲避雷表全网疯传的背后是捞女、骗女太多了!

男性相亲避雷表全网疯传的背后是捞女、骗女太多了!

黯泉
2026-05-25 19:48:10
窦靖童在节目中称那英“老师”,却遭那英反问“叫我啥?” 曝婴儿时期叫“老那”,平时叫“那英阿姨”

窦靖童在节目中称那英“老师”,却遭那英反问“叫我啥?” 曝婴儿时期叫“老那”,平时叫“那英阿姨”

天津生活通
2026-05-23 14:47:55
柬媒爆料:中国15家企业承诺,送50万人去柬!1000多条评论很一致

柬媒爆料:中国15家企业承诺,送50万人去柬!1000多条评论很一致

消失的电波
2026-05-22 21:31:30
李小璐发文“或后悔想重选”,贾乃亮更文引评论区支持!

李小璐发文“或后悔想重选”,贾乃亮更文引评论区支持!

默默有话说
2026-05-25 11:29:53
2026-05-26 03:11:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11891文章数 117085关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

伊朗媒体披露最高领袖就医情况

头条要闻

伊朗媒体披露最高领袖就医情况

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

时尚
游戏
房产
亲子
本地

Bella的戛纳之旅,次次“神级”表现

《暗黑破坏神4》国服本体免费活动延长至8月4日

房产要闻

工抵房骗局!134套房款入私账!海南这个盘,坑惨买房人!

亲子要闻

还有多少“儿童牙膏”在玩概念游戏? | 新京报快评

本地新闻

用云锦的方式,打开江苏南京

无障碍浏览 进入关怀版