网易首页 > 网易号 > 正文 申请入驻

趋境科技发布大模型知识推理一体机,首创“以存换算”和“全系统推理架构”,助力企业高效推理

0
分享至

随着大模型,尤其是开源大模型的持续进化,具备复杂推理能力的模型正在逐步应用于各行各业,并展现出超越人类专家的潜力。得益于此,未来的算力建设将更加聚焦于推理场景,而不仅仅是训练算力。

华福证券的研究指出,到2027年,推理端的人工智能服务器预计将占整体工作负载的72.6%。同时,OpenAI o1 所代表的大模型推理场景的 Scaling Law 也进一步助推了这一趋势的加速发展。

然而,尽管模型的效果有了显著的提升,数百亿参数、上百万上下文的一线模型在实际部署中仍面临高成本和低效率的挑战。这一现象导致了难以破解的“不可能三角”。

 图片来源:趋境科技

为了应对这一困境,亟需新型推理架构,打破传统主要为训练场景设计,以高端 GPU 为中心的算力架构设计思路。

在此背景下,趋境科技推出了“大模型知识推理一体机”,其搭载的业界首创的全系统推理架构能够通过协同存储、CPU、GPU、NPU等多种设备,充分释放异构算力,将推理成本降低10倍以上。

 图片来源:趋境科技

这一创新为企业实现大模型的高效落地提供了全新选择,开启了通向“推理自由”的新途径。

趋境大模型知识推理一体机不仅支持本地部署数百亿级别的一线大模型,还提供开放的API接口,便于第三方灵活调用。同时,用户可根据需求定制企业智能助手(assistant/copilot),实现真正的“开箱即用”。

协同 HBM/DRAM/SSD 和 CPU/GPU/NPU 全系统异构设备,充分释放异构存力和算力资源

与当前行业主要针对 GPU 算力利用率进行单点优化的传统方案相比,趋境科技大模型知识推理一体机采用了业界首创的全系统推理架构。

 图片来源:趋境科技

其通过“以存换算”技术释放存力作为算力的补充,降低对算力的需求;同时采用“异构协同”的思路,紧密联动 HBM/DRAM/SSD 和 CPU/GPU/NPU 全系统异构设备,突破显存容量的限制,充分释放全系统的存力和算力。

这一创新方案突破了以往方案的理论优化极限,实现了整合机器所有异构算力资源的目标,使得推理吞吐量提升超过10倍,大幅降低了大模型的落地成本。

此外,据财通证券发布的行业深度分析报告统计显示,国产GPU产品在单精度/半精度浮点算力、制程及显存容量上都与英伟达有2-4倍的显著差距。因此,仅依靠GPU单点优化,短时间内很难赶超英伟达GPU方案。

而采用全系统推理架构可以大幅降低GPU性能差距的影响,显著提升国产升级解决方案的竞争力,打破在大模型推理场景下国产GPU被限制的困境。

以存换算新范式,从“死记硬背”到“融合推理”

早期的大模型推理架构将每次推理视为独立请求,缺乏高效处理所需的“记忆”能力。尽管后续引入了近似问题缓存(Semantic Query Cache)和前缀缓存(Prefix KVCache Cache),但仍主要依赖于“死记硬背”。这些方案要求新问题与已处理问题高度一致才能利用缓存去降低算力需求。

针对这一问题,趋境科技创新性地设计了“融合推理(Fusion Attention)”技术,即便是面对全新的问题也可以从历史相关信息中提取可复用的部分内容,与现场信息进行在线融合计算。这一技术显著提升了可复用的历史计算结果,进而降低了计算量。

 图片来源:趋境科技

通过这一新思路,趋境大模型知识推理一体机充分利用了存储资源。采用“以存换算”的方式释放存力作为对于算力的补充,在RAG场景中,响应延迟降低20倍,性能提升达10倍。

全系统异构协同新架构,从GPU单点优化到全系统协同优化

除了通过“以存换算”降低算力需求外,趋境大模型知识推理一体机还进一步通过全系统异构协同架构设计,将来自存储、CPU、GPU、NPU的算力高效融合,进一步提升大模型推理性能,降低成本。

此前,趋境科技与清华 KVCache.AI 团队合作,开源了一部分异构推理框架,项目名为“KTransformers”(GitHub链接:https://github.com/kvcache-ai/ktransformers),该开源框架仅需单个消费级 GPU 即可在本地运行 Mixtral 8x22B 和DeepSeek-Coder-V2 等千亿级大模型,性能数倍于 Llama.cpp。

在长达 1M 的超长上下文推理任务中,成为业界首个仅需单 GPU 卡的高性能推理框架,生成速度达到 16.91 token/s,比 Llama.cpp 快10倍以上,同时维持接近满分的“大海捞针”能力。

 图片来源:趋境科技

趋境科技大模型知识推理一体机采用的全系统推理架构是基于“KTransformers”进一步完善的商业版本,在开源版的基础上,协同性能更强,加入了多卡高并发调度、RAG支持等策略。经过测试及客户合作验证,Prefill 和 Generate 性能大幅领先业界方案:

Prefill阶段的 TTFT(响应延迟)相比业界方案快6倍以上

Generate阶段的 TPOT(生成速度)相比业界方案快3.48倍以上

趋境x长亭:为安全大模型开启千亿大模型时代

国内顶尖的网络信息安全公司长亭科技,使用趋境科技提供的全系统异构推理架构技术策略,无缝衔接到其原有的“问津(ChaitinAI)安全大模型”、MSS 安全托管服务等产品中,问津(ChaitinAI)安全大模型升级为千亿大模型,安全性能全方位升级:

核心指标攻击识别准确率提升至95.8%,检测时延降低至秒级。另外,其对漏洞的检测能力增强,不仅提升漏洞发现数量,对应的修复建议也更准确,还能基于不同场景选择更合适的工具和策略。同时,对不良内容识别能力升级,准确率和召回率均有提升。安全报告内容生成质量和评分也显著提高,综合输出更具健壮性和稳定性。

此外,长亭科技的安全大模型的部署资源成本降低50%,助推其更多业务加入大模型能力。

技术的不断进步和市场需求为大模型的未来发展提供了广阔的空间。随着算力基础设施的不断完善,提升算力的利用效率,使大模型能与更多的行业实践结合起来,未来大模型将在更多行业中发挥更大的作用。

趋境目前也正在和更多的大模型应用厂商一同协作,希望助推全面智能化的到来。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1999年,69岁禹作敏狱中难耐孤寂,死前曾向李瑞环提出:我想回家

1999年,69岁禹作敏狱中难耐孤寂,死前曾向李瑞环提出:我想回家

华人星光
2026-04-20 09:59:15
炸翻全球军界!沙特怒砸120亿买断中国神装,美军彻底被踢出局

炸翻全球军界!沙特怒砸120亿买断中国神装,美军彻底被踢出局

风信子的花
2026-04-21 14:31:44
致敬传奇!王治郅正式入选国际篮联名人堂,诺维茨基一同入选

致敬传奇!王治郅正式入选国际篮联名人堂,诺维茨基一同入选

懂球帝
2026-04-21 20:06:06
外院缝合被同行怒批:瞎胡闹,游医水平!一个真让做,一个真敢做

外院缝合被同行怒批:瞎胡闹,游医水平!一个真让做,一个真敢做

新浪财经
2026-04-22 12:10:58
10大天规,不可打破,君子知命不算命!

10大天规,不可打破,君子知命不算命!

神奇故事
2026-04-20 19:27:24
突发:Claude Code把Pro用户「踢」了

突发:Claude Code把Pro用户「踢」了

AppSo
2026-04-22 07:49:03
男女同居后,大部分女性通常忍受不了男性这些行为

男女同居后,大部分女性通常忍受不了男性这些行为

阿凯销售场
2026-04-22 11:44:56
又一个五常国,做出疯狂决定,比日本都狠!俄罗斯:打的就是你

又一个五常国,做出疯狂决定,比日本都狠!俄罗斯:打的就是你

扬子的故事屋
2026-04-22 10:58:16
决胜局53-17领先被翻!25岁范争一9-10出局 43岁墨菲死里逃生狂欢

决胜局53-17领先被翻!25岁范争一9-10出局 43岁墨菲死里逃生狂欢

风过乡
2026-04-22 07:20:02
太阳:只要格林,一切关于申京的交易都免谈!亚历山大式交易再现

太阳:只要格林,一切关于申京的交易都免谈!亚历山大式交易再现

呀古铜
2026-04-22 10:33:48
郭士强现场考察,个人认为三名球员应进国家队,21岁小将上榜

郭士强现场考察,个人认为三名球员应进国家队,21岁小将上榜

男足的小球童
2026-04-21 18:16:37
马刺主帅:目前只知道文班是脑震荡,我们会采取正确的步骤处理

马刺主帅:目前只知道文班是脑震荡,我们会采取正确的步骤处理

懂球帝
2026-04-22 12:20:02
惊天内幕!中国专家揭露美国攻打伊朗的真正目的,竟然是这个!

惊天内幕!中国专家揭露美国攻打伊朗的真正目的,竟然是这个!

橙色书卷
2026-04-18 22:56:03
伯纳乌不留旧人!皇马高层拒绝穆里尼奥执教,巅峰已成过去时

伯纳乌不留旧人!皇马高层拒绝穆里尼奥执教,巅峰已成过去时

体育闲话说
2026-04-21 21:48:20
四川省教育厅新任命副厅长!

四川省教育厅新任命副厅长!

创作者_1494406553502
2026-04-22 11:22:00
闹翻了!辽篮更衣室内讧,赵继伟深夜2文“炮轰” 弗格打脸管理层

闹翻了!辽篮更衣室内讧,赵继伟深夜2文“炮轰” 弗格打脸管理层

小徐讲八卦
2026-04-22 05:45:02
齐沃整活被痛批!恰尔汗奥卢独造3球力挽狂澜,国米3-2绝杀科莫

齐沃整活被痛批!恰尔汗奥卢独造3球力挽狂澜,国米3-2绝杀科莫

钉钉陌上花开
2026-04-22 05:00:39
西班牙打响“反以”第一枪后,匈牙利新总理:内塔敢来,必被逮捕

西班牙打响“反以”第一枪后,匈牙利新总理:内塔敢来,必被逮捕

坠入二次元的海洋
2026-04-22 09:53:44
近10年崩得最狠的专业:从年薪几十万到月薪两千五!

近10年崩得最狠的专业:从年薪几十万到月薪两千五!

灯锦年
2026-04-21 13:28:31
43岁李宗伟谈羽联改革:若改用15分制,说不定我也会复出

43岁李宗伟谈羽联改革:若改用15分制,说不定我也会复出

懂球帝
2026-04-22 10:47:23
2026-04-22 12:52:49
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1062587文章数 1333318关注度
往期回顾 全部

科技要闻

凌晨突发!ChatGPT Images 2.0发布

头条要闻

KTV服务员被指强奸14岁女生 官方通报

头条要闻

KTV服务员被指强奸14岁女生 官方通报

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

汽车要闻

四款全球首秀+AI落地 大众汽车集团在华转型全面提速

态度原创

家居
游戏
本地
公开课
军事航空

家居要闻

极简绘梦 克制和谐

预计680元起 黑旗RE典藏版内容曝光!雕像等超多好礼

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普宣布延长停火 伊朗表态

无障碍浏览 进入关怀版