网易首页 > 网易科技 > 网易科技 > 正文

Kimi首发“上下文缓存”技术,助推长文本大模型降本90%

0
分享至

(原标题:Kimi首发“上下文缓存”技术,助推长文本大模型降本90%)

  近日,月之暗面宣布 Kimi 开放平台正式公测新技术——上下文缓存(Context Caching),该技术在 API 价格不变的前提下,可为开发者降低最高 90% 的长文本大模型使用成本,并且显著提升模型的响应速度。

       据了解,月之暗面是国内首家面向开发者推出上下文缓存(Context Caching)技术的大模型公司。

       上下文缓存(Context Caching)技术的基本原理是,系统预先存储那些可能会被频繁请求的大量数据或信息。这样,当用户再次请求相同信息时,系统可以直接从缓存中快速提供,而无需重新计算或从原始数据源中检索,从而节省时间和资源。

       上下文缓存(Context Caching)技术可以带来降本和提速两大价值。首先,通过缓存重复性输入的大量数据,对于公共上下文仅收取一次费用,上下文缓存(Context Caching)技术大大降低了开发者使用长文本旗舰大模型的成本,最高可降本达 90%。其次,上下文缓存(Context Caching)技术还有助于提升大模型API的响应速度,实测可将 128K 长文本大模型的首 token 延迟降低 83% 左右,从平均 30 秒左右降低到平均 5 秒内。

       在长上下文和高负载的业务场景上,上下文缓存带来的降本和提速效果尤为显著。常见场景包括提供大量预设内容的问答机器人,例如 Kimi API 小助手;针对固定的文档集合的频繁查询,例如上市公司信息披露问答工具;对静态代码库或知识库的周期性分析,例如各类 Copilot Agent;瞬时流量巨大的爆款 AI 应用,例如哄哄模拟器;交互规则复杂的 Agent 类应用,例如什么值得买的 Kimi+ 等

       以常见的固定文档大量提问场景为例。某硬件产品说明书大概 9万字,换算 Tokens 长度大概 64K,该产品售前支持人员需要在 10 分钟内,密集对产品的功能/使用方式进行 40 次问答,每次的问题大概 100 个字,要求模型的输出需要基于产品说明书来回答,回答问题在 120 字以内。

       按照大模型问答的 Tokens 计算逻辑,售前支持人员需要每次向模型输入的 Tokens =文档 Tokens +问题 Tokens,10 分钟内 40 次的问答共计需要消耗 Tokens 2.56 M,128k 模型价格为 60元/M,预计原始花费需要 153.84 元。若该场景接入上下文缓存(Context Caching)技术:9万字的文档只收取一次创建 Cache 和存储 10 分钟 Cache 的费用,10分钟内的40次提问,将只收取问题的 100 字+ 回答的 120 字的费用,预计花费 11.88 元。节省了 141.95 元,相当于费用降低 90% 左右。

       响应速度方面,以 128k 模型的一次4万字(约 30k tokens)的推理请求为例。通常向模型提问,平均要 30 秒返回首 Token。接入上下文缓存技术后,最快可 1 秒内完成首 Token 返回。经过大量测试,接入上下文缓存功能后,128k 模型的首 Token 延迟平均可降至 5 秒内,降低了 83%左右。

       需要注意的是,上述测试效果基于 1 token = 1~1.5个文字和字符,使用 128k 模型进行测算。具体的效果根据业务情况/模型选择不同,会有略微差别。

       上下文缓存(Context Caching)技术在公测期间将首先提供给 Kimi 开放平台的 Tier5 等级开发者,后续陆续增大开发者公开测试范围。

       Kimi 大模型目前已接入了钉钉、扣子等平台,用户或开发者可以在这些平台选用 Kimi 大模型,借助出色的长文本和指令遵循能力搭建个性化的智能体应用。Kimi 开放平台的开发者注册量自从今年 2 月份以来复合增长率超过 175%,在投研服务、法律尽调、企业知识库问答、辅助软件开发等场景获得广泛应用。近期,Kimi 开放平台陆续上线了工具调用(Tool Use)、Partial Mode、上下文缓存(Context Caching)等能力,持续帮助开发者高效打造更有想象力的AI 应用。



相关推荐
热点推荐
肥娟又丢下直播间的10万+人跑路了,还是老样子,没心没肺的!

肥娟又丢下直播间的10万+人跑路了,还是老样子,没心没肺的!

猫小狸同学
2025-01-09 16:20:03
楼市要变天了?广西多条新政连发,看看对你有什么影响?

楼市要变天了?广西多条新政连发,看看对你有什么影响?

南国今报
2025-01-09 18:42:24
乌军F16破世界纪录!一名飞行员击落6枚俄军巡航导弹

乌军F16破世界纪录!一名飞行员击落6枚俄军巡航导弹

项鹏飞
2025-01-07 20:18:57
勒庞去世,其“继承人”特朗普正让欧洲恐惧!

勒庞去世,其“继承人”特朗普正让欧洲恐惧!

新民周刊
2025-01-09 09:15:19
男性一天最多能吸多少支烟?建议:如果能控制在这个数,还算可以

男性一天最多能吸多少支烟?建议:如果能控制在这个数,还算可以

小熊侃史
2025-01-09 07:45:03
女玩家抵制《漫威争锋》"隐形女"皮肤:特色只有卖肉!

女玩家抵制《漫威争锋》"隐形女"皮肤:特色只有卖肉!

游民星空
2025-01-09 13:06:18
《哈尔滨》爆拉韩国影市

《哈尔滨》爆拉韩国影市

毒眸官方号
2025-01-09 11:24:42
火力不断穆帅晒加拉塔萨雷后卫飞铲未判犯规,4天内3次开炮❗

火力不断穆帅晒加拉塔萨雷后卫飞铲未判犯规,4天内3次开炮❗

直播吧
2025-01-09 19:11:34
中国航司正迅速填补西方空缺

中国航司正迅速填补西方空缺

观察者网
2025-01-09 17:02:47
马斯克回复小鹏汽车“…”原因揭晓?曝新款Model Y与小鹏P7+撞脸

马斯克回复小鹏汽车“…”原因揭晓?曝新款Model Y与小鹏P7+撞脸

爱论历史
2025-01-07 23:09:05
冉莹颖:结婚无非就是多一个性伴侣,我已经三年没夫妻生活了

冉莹颖:结婚无非就是多一个性伴侣,我已经三年没夫妻生活了

阿凫爱吐槽
2024-12-28 07:44:29
江苏全面推行“110”可视报警服务

江苏全面推行“110”可视报警服务

新华社
2025-01-09 19:46:41
-4℃!冰冻!无锡人挺住......

-4℃!冰冻!无锡人挺住......

江南晚报
2025-01-09 22:02:03
建文帝下落之谜被解开?后世争议600余年,其实朱棣早就找到答案

建文帝下落之谜被解开?后世争议600余年,其实朱棣早就找到答案

百态人间
2025-01-09 19:03:38
自称亨利集团二把手的赵海波,重出江湖,跟崩牙驹旧事被扒出!

自称亨利集团二把手的赵海波,重出江湖,跟崩牙驹旧事被扒出!

祝晓塬
2025-01-09 13:58:25
特朗普底牌浮出水面,对华6大条件,若满足,承诺“保护”中国?

特朗普底牌浮出水面,对华6大条件,若满足,承诺“保护”中国?

说天说地说实事
2025-01-08 10:51:23
中央纪委:严查政治问题和经济问题交织的腐败案件 着重抓好金融、国企、能源、消防、烟草、医药、高校、体育、开发区、工程建设和招投标等领域系统整治

中央纪委:严查政治问题和经济问题交织的腐败案件 着重抓好金融、国企、能源、消防、烟草、医药、高校、体育、开发区、工程建设和招投标等领域系统整治

财联社
2025-01-08 18:10:06
国家为什么又开始鼓励燃油车了?国家这回又给燃油车开了绿灯

国家为什么又开始鼓励燃油车了?国家这回又给燃油车开了绿灯

天行舰
2025-01-09 00:00:10
玩家破产!NVIDIA新一代旗舰显卡RTX 5090正式发布:定价1999美元史上最贵

玩家破产!NVIDIA新一代旗舰显卡RTX 5090正式发布:定价1999美元史上最贵

快科技
2025-01-07 14:59:30
王星事件后续!泰国颁布紧急法令,总理亲自发声,网友却并不买账

王星事件后续!泰国颁布紧急法令,总理亲自发声,网友却并不买账

冬天来旅游
2025-01-09 20:02:53
2025-01-09 23:40:49

科技要闻

国产震撼!15万人CES围观"中国代表队"

头条要闻

模特泰缅边境失联 朋友:有人在园区见过他 一起挨了打

头条要闻

模特泰缅边境失联 朋友:有人在园区见过他 一起挨了打

体育要闻

纳什:梅西是足坛乔丹 哈维魔笛丁丁像我

娱乐要闻

李明德疑似诈捐!下一步全网封号

财经要闻

“9块9首付买房,一年房贷3.5万元”

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

艺术
时尚
房产
数码
游戏

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

谁说50岁女性不能赶潮流?这么打扮简约不挑人,洋气又提品味

房产要闻

政府工作报告曝光!三亚再迎重磅利好!

数码要闻

联想YOGA Book9i双屏笔记本亮相 预计售价1999美元起

买新衣服过年!6块钱扫货的快乐谁懂!网易这波福利拉满了!

无障碍浏览 进入关怀版
×