网易首页 > 网易科技 > 网易科技 > 正文

Kimi首发“上下文缓存”技术,助推长文本大模型降本90%

0
分享至

(原标题:Kimi首发“上下文缓存”技术,助推长文本大模型降本90%)

  近日,月之暗面宣布 Kimi 开放平台正式公测新技术——上下文缓存(Context Caching),该技术在 API 价格不变的前提下,可为开发者降低最高 90% 的长文本大模型使用成本,并且显著提升模型的响应速度。

       据了解,月之暗面是国内首家面向开发者推出上下文缓存(Context Caching)技术的大模型公司。

       上下文缓存(Context Caching)技术的基本原理是,系统预先存储那些可能会被频繁请求的大量数据或信息。这样,当用户再次请求相同信息时,系统可以直接从缓存中快速提供,而无需重新计算或从原始数据源中检索,从而节省时间和资源。

       上下文缓存(Context Caching)技术可以带来降本和提速两大价值。首先,通过缓存重复性输入的大量数据,对于公共上下文仅收取一次费用,上下文缓存(Context Caching)技术大大降低了开发者使用长文本旗舰大模型的成本,最高可降本达 90%。其次,上下文缓存(Context Caching)技术还有助于提升大模型API的响应速度,实测可将 128K 长文本大模型的首 token 延迟降低 83% 左右,从平均 30 秒左右降低到平均 5 秒内。

       在长上下文和高负载的业务场景上,上下文缓存带来的降本和提速效果尤为显著。常见场景包括提供大量预设内容的问答机器人,例如 Kimi API 小助手;针对固定的文档集合的频繁查询,例如上市公司信息披露问答工具;对静态代码库或知识库的周期性分析,例如各类 Copilot Agent;瞬时流量巨大的爆款 AI 应用,例如哄哄模拟器;交互规则复杂的 Agent 类应用,例如什么值得买的 Kimi+ 等

       以常见的固定文档大量提问场景为例。某硬件产品说明书大概 9万字,换算 Tokens 长度大概 64K,该产品售前支持人员需要在 10 分钟内,密集对产品的功能/使用方式进行 40 次问答,每次的问题大概 100 个字,要求模型的输出需要基于产品说明书来回答,回答问题在 120 字以内。

       按照大模型问答的 Tokens 计算逻辑,售前支持人员需要每次向模型输入的 Tokens =文档 Tokens +问题 Tokens,10 分钟内 40 次的问答共计需要消耗 Tokens 2.56 M,128k 模型价格为 60元/M,预计原始花费需要 153.84 元。若该场景接入上下文缓存(Context Caching)技术:9万字的文档只收取一次创建 Cache 和存储 10 分钟 Cache 的费用,10分钟内的40次提问,将只收取问题的 100 字+ 回答的 120 字的费用,预计花费 11.88 元。节省了 141.95 元,相当于费用降低 90% 左右。

       响应速度方面,以 128k 模型的一次4万字(约 30k tokens)的推理请求为例。通常向模型提问,平均要 30 秒返回首 Token。接入上下文缓存技术后,最快可 1 秒内完成首 Token 返回。经过大量测试,接入上下文缓存功能后,128k 模型的首 Token 延迟平均可降至 5 秒内,降低了 83%左右。

       需要注意的是,上述测试效果基于 1 token = 1~1.5个文字和字符,使用 128k 模型进行测算。具体的效果根据业务情况/模型选择不同,会有略微差别。

       上下文缓存(Context Caching)技术在公测期间将首先提供给 Kimi 开放平台的 Tier5 等级开发者,后续陆续增大开发者公开测试范围。

       Kimi 大模型目前已接入了钉钉、扣子等平台,用户或开发者可以在这些平台选用 Kimi 大模型,借助出色的长文本和指令遵循能力搭建个性化的智能体应用。Kimi 开放平台的开发者注册量自从今年 2 月份以来复合增长率超过 175%,在投研服务、法律尽调、企业知识库问答、辅助软件开发等场景获得广泛应用。近期,Kimi 开放平台陆续上线了工具调用(Tool Use)、Partial Mode、上下文缓存(Context Caching)等能力,持续帮助开发者高效打造更有想象力的AI 应用。



相关推荐
热点推荐
台海终有一战,石齐平判断:中美在法理上博弈已经为战争做好准备

台海终有一战,石齐平判断:中美在法理上博弈已经为战争做好准备

淡然小司
2024-07-07 11:23:57
广东:男子婚内约会女网友,一夜激情后女方当真了,甩都甩不掉

广东:男子婚内约会女网友,一夜激情后女方当真了,甩都甩不掉

雅清故事汇
2024-07-07 13:44:11
"急疯了!"被连挂5次,医生坚持电话"轰炸",最终抢回一条命

"急疯了!"被连挂5次,医生坚持电话"轰炸",最终抢回一条命

鲁中晨报
2024-07-07 15:51:11
美国大败:7月7日,全面撤军!

美国大败:7月7日,全面撤军!

占豪
2024-07-07 01:00:31
张志杰去世后,病因查明,凄惨身世曝光,主办方恐面临天价赔偿

张志杰去世后,病因查明,凄惨身世曝光,主办方恐面临天价赔偿

娱乐的小灶
2024-07-06 11:07:36
这才是普京想要的:白俄刚入上合,中国军方就派人过去了,太快了

这才是普京想要的:白俄刚入上合,中国军方就派人过去了,太快了

红心说娱乐
2024-07-07 18:19:41
外媒:欧尔班访俄同日在美媒撰文警告——北约如选择战争而非和平,“将会是自杀”

外媒:欧尔班访俄同日在美媒撰文警告——北约如选择战争而非和平,“将会是自杀”

环球网资讯
2024-07-07 09:41:09
媒体人:泰山队外援能力高于申花,但国内球员年龄结构有差距

媒体人:泰山队外援能力高于申花,但国内球员年龄结构有差距

直播吧
2024-07-07 17:30:11
蔡正元再次出来回应我们驻法大使卢沙野的讲话了!

蔡正元再次出来回应我们驻法大使卢沙野的讲话了!

杂谈天下式
2024-07-07 07:59:43
军队很恼火,中国花300亿美元买的俄罗斯武器,如今全部退居二线

军队很恼火,中国花300亿美元买的俄罗斯武器,如今全部退居二线

阿裤趣闻君
2024-07-04 13:44:57
活该被暴揍——加入北约太磨叽

活该被暴揍——加入北约太磨叽

民间胡扯老哥
2024-06-24 00:22:50
凯莱布-马丁4年超3200万加盟76人 拒绝与热火4年5800万/5年6500万续约

凯莱布-马丁4年超3200万加盟76人 拒绝与热火4年5800万/5年6500万续约

直播吧
2024-07-06 23:12:22
名记:特雷-杨的交易市场状况一如既往地冷清

名记:特雷-杨的交易市场状况一如既往地冷清

懂球帝
2024-07-06 15:45:26
热热热,江西酷暑难耐,同样热的还有……

热热热,江西酷暑难耐,同样热的还有……

江西新闻联播
2024-07-07 19:05:59
伊朗大选落幕,85岁哈梅内伊,坐视“亲美”斗士归来?

伊朗大选落幕,85岁哈梅内伊,坐视“亲美”斗士归来?

牲产队2024
2024-07-06 19:44:50
突发!山东济宁泗水突发暴雨,2024年最大!开车如开船,太可怕了

突发!山东济宁泗水突发暴雨,2024年最大!开车如开船,太可怕了

宇哥看世界ii
2024-07-07 17:03:38
很突然!Woj:哈里森-巴恩斯经三方交易被送去马刺!

很突然!Woj:哈里森-巴恩斯经三方交易被送去马刺!

直播吧
2024-07-07 10:37:06
孙海洋视频公布儿子孙卓高考佳绩,远超预期,满意且开心

孙海洋视频公布儿子孙卓高考佳绩,远超预期,满意且开心

大眼瞄世界
2024-07-05 17:35:47
对华强硬的特拉斯,现在结局凄惨,议员都混不上,对中国态度反转

对华强硬的特拉斯,现在结局凄惨,议员都混不上,对中国态度反转

环球Talk
2024-07-06 23:22:13
晒被子后的“太阳味”是啥?科学家:不是螨虫尸体,而是因为这个

晒被子后的“太阳味”是啥?科学家:不是螨虫尸体,而是因为这个

飞花文史
2024-07-05 11:44:35
2024-07-07 20:12:49

科技要闻

临时加关税 欧版"元PLUS"成本涨近8000欧元

头条要闻

女子在云南吃"见手青"中毒送医 1个多月后仍视力模糊

头条要闻

女子在云南吃"见手青"中毒送医 1个多月后仍视力模糊

体育要闻

转发这篇索斯盖特,你也能运气爆棚!

娱乐要闻

49岁林志玲在日本带娃被偶遇

财经要闻

齐创阶段新高 一线城市楼市又可以了?

汽车要闻

18.98万起 宝马新电动MINI COOPER上市

态度原创

时尚
本地
家居
艺术
教育

等你老了别穿“老年装”,跟这些中年妈妈学穿搭,时髦大气

本地新闻

云游中国 | 走进安塞,寻觅黄土高原文化记忆

家居要闻

自然韵律 木质家居的宁静美学

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

教育要闻

改名超成功的5所大学,网友:太像985了!

无障碍浏览 进入关怀版
×