网易首页 > 网易号 > 正文 申请入驻

Kimi 16B胜GPT4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

0
分享至

刚刚,Kimi团队上新了!

开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,多模态和推理双双拿捏。

按照Kimi官方的说法,其关键亮点如下:

  • 都是基于MoE架构,总参数为16B,但推理时仅激活2.8B
  • 具备强大的多模态推理能力(媲美参数大10倍的模型)Agent能力
  • 支持128K上下文窗口;
  • 采用相对较为宽松的MIT许可证

如图所示,和Qwen2.5-VL、Gemma-3等前沿开源VLM相比,Kimi-VL-Thinking仅使用2.8B激活参数即可实现强大的多模态推理。

同时在一些重要基准测试中,Kimi新模型“以小博大”,超越了GPT-4o等规模更大的模型。

目前两款模型均已上架Hugging Face,分为Instruct基础版和Thinking推理版。

网友们纷纷表示,新的标杆再次诞生!

多模态和推理双双拿捏

话不多说,我们直接看Kimi新模型的具体玩法和效果。

视觉理解与推理

首先,作为一款通用的VLM模型,Kimi-VL具备强大的视觉理解和推理能力

给它一份手稿,要求它通过逐步推理来确认手稿属于谁,以及所记录的内容。

可以看到,Kimi-VL通过分析手稿的笔迹、内容、语言等特征,推断出手稿可能属于爱因斯坦,理由是这些内容与引力场方程有关,这与爱因斯坦对广义相对论的贡献有关。

又或者只提供一张图片,让Kimi-VL来判断城市地标建筑、识别游戏场景等。

比如第2个例子中,它成功识别出图片中的穹顶建筑为多伦多的罗杰斯中心(Rogers Centre),同时描述了其特征和用途。

除此之外,Kimi-VL也能被用来解答高难度几何数学题。

还是仅需一个上传图片的动作,它就能将复杂数学公式转换为LaTeX代码,并以正确格式输出。

OCR与文本处理

当然,Kimi-VL对多模态数据的正确理解还离不开一项关键能力——OCR字符识别

在OCRBench基准测试中,其得分为867,属于SOTA水平。

除了识别数学公式,它还能识别金融表格(以Markdown表格格式输出)和手写作文。

甚至还能从长达一小时的视频课程中捕捉和理解关键细节。

比如提供视频中的某句话“授人以鱼不如授人以渔”,要求它找到出处并进一步解读。

智能体任务与交互

值得关注的是,Kimi-VL还在多轮Agent交互任务(例如OSWorld)中表现出色,取得了媲美旗舰模型的SOTA结果。

比如在Chrome浏览器中,要求它自动启用“Do Not Track”功能来保护用户隐私。

可以看到,通过一步步思考,Kimi-VL对每个屏幕进行解读,识别相关的用户界面元素,并通过清晰的思路、操作和API调用按顺序执行相应的操作。

背后技术原理

那么接下来的问题是,怎么做到的?

来看Kimi此次公开的技术报告。

首先,在模型架构上,Kimi-VL和Kimi-VL-Thinking主要由三大部分构成:

  • MoE专家混合语言模型(之前发布的Moonlight-16B-A3B)
  • 原生分辨率视觉编码器(MoonViT,基于SigLIP-SO-400M微调)
  • 一个多层感知机(MLP)投影器。

模型具体训练过程如下:

数据准备

这第一步,团队构建了三大类别数据集:

1、预训练数据。精选来自六个类别的高质量数据,包括字幕数据、图像文本交织数据、OCR数据、知识数据、视频数据和智能体数据。通过过滤、合成和去重等操作,控制数据质量。

2、指令数据。用于增强模型的对话和指令遵循能力。对于非推理任务,通过人工标注构建种子数据集,训练种子模型后生成并筛选多轮响应;对于推理任务,利用拒绝采样的方式扩展数据集,确保数据多样性和准确性。

3、推理数据。通过类似拒绝采样和提示工程的方法,收集和合成高质量的长思维链数据。

预训练:主要提升多模态能力

然后开始预训练,这一阶段共消耗4.4T tokens,主要目标是提高模型的多模态理解能力。

概括而言,这一过程包含4个步骤:先独立进行ViT训练,以建立原生分辨率视觉编码器;随后进行三个联合训练阶段(预训练、冷却、长上下文激活)。

后训练:主要提升长思维链推理能力

接着进行后训练,通过在32K和128K上下文中进行的两个阶段的联合监督微调、长思维链监督微调及强化学习,团队进一步提升了模型的长期思考能力

更多细节感兴趣可以查阅原论文。

One More Thing

有一说一,相比于DeepSeek、Qwen等国内竞争对手,Kimi最近一个月实在有点过于安静了。

从官方公众号来看,最新一条发布还是在2月份。

在这股平静之下,网友们开始猜测:

  • Kimi即将有大动作了?

结合更多消息,目前大家比较认可的推测是K1.6模型即将到来。

就在3月,基于Kimi-K1.6的数学模型突然曝光,在编程基准测试LiveCodeBench中拿下第一,超越o3、DeepSeek-R1等模型。

当然,也欢迎更多知情者在评论区爆料(doge)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗内部“反水”?拉里贾尼被锁定,情报竟来自德黑兰市民

伊朗内部“反水”?拉里贾尼被锁定,情报竟来自德黑兰市民

桂系007
2026-03-17 23:41:02
独吞千万遗产?出逃英国,给杨振宁戴绿帽子,翁帆身上谣言太离谱

独吞千万遗产?出逃英国,给杨振宁戴绿帽子,翁帆身上谣言太离谱

月光作笺a
2026-03-16 21:22:38
雷军回应为何这么早停售第一代小米SU7:不想背刺老用户

雷军回应为何这么早停售第一代小米SU7:不想背刺老用户

IT之家
2026-03-17 16:44:10
日本女足国脚谷川萌萌子:我们来参加亚洲杯就是为了夺冠

日本女足国脚谷川萌萌子:我们来参加亚洲杯就是为了夺冠

懂球帝
2026-03-17 17:02:04
伊朗发现汉字,经过仔细翻译后,他们认为:这里曾是中国的一个省

伊朗发现汉字,经过仔细翻译后,他们认为:这里曾是中国的一个省

抽象派大师
2026-03-15 15:55:40
卷巨额遗产出逃英国,给杨振宁戴绿帽子,翁帆身上的谣言有多离谱

卷巨额遗产出逃英国,给杨振宁戴绿帽子,翁帆身上的谣言有多离谱

老琴才是我的外号
2026-03-16 18:58:58
35岁少妇当街与男子淫乱:事发全过程披露,正面照曝光,警方通报

35岁少妇当街与男子淫乱:事发全过程披露,正面照曝光,警方通报

博士观察
2026-03-17 12:36:56
体制内和体制外,十年前后对比

体制内和体制外,十年前后对比

微微热评
2026-03-17 11:53:17
太缺德!老人的养生粮、孩子的益生菌全翻车,黑名单里全是常买的

太缺德!老人的养生粮、孩子的益生菌全翻车,黑名单里全是常买的

涵豆说娱
2026-03-16 12:07:31
你以为在冷战,其实早分手了!网友:有种看爽文的感觉,强烈推荐

你以为在冷战,其实早分手了!网友:有种看爽文的感觉,强烈推荐

解读热点事件
2026-03-17 00:05:06
俄军T90M坦克全军覆没!看乌军自杀无人机表现后,发现咱低估它了

俄军T90M坦克全军覆没!看乌军自杀无人机表现后,发现咱低估它了

黑鹰观军事
2026-03-16 12:12:53
叶剑英坦言:毛主席用三次“神操作”,折服了所有战将

叶剑英坦言:毛主席用三次“神操作”,折服了所有战将

鹤羽说个事
2026-03-11 20:06:21
上海28岁天才股神直言:但凡涨停股,开盘30分钟都会出现3个信号

上海28岁天才股神直言:但凡涨停股,开盘30分钟都会出现3个信号

股经纵横谈
2026-03-17 20:08:26
《斯巴达克斯》女神排行榜,前三个太顶了

《斯巴达克斯》女神排行榜,前三个太顶了

来看美剧
2026-03-17 21:16:08
若塔妻子参加葡萄牙父亲节主题10公里马拉松,以此来悼念若塔

若塔妻子参加葡萄牙父亲节主题10公里马拉松,以此来悼念若塔

懂球帝
2026-03-18 06:37:40
开骂!没詹姆斯湖人更强?扯吧你!

开骂!没詹姆斯湖人更强?扯吧你!

柚子说球
2026-03-18 07:58:18
涉黄的宝宝巴士被重罚!网友:成人巴士!

涉黄的宝宝巴士被重罚!网友:成人巴士!

广告案例精选
2026-03-18 08:45:56
华为养了十年的狼,带着一群崽子把家偷了

华为养了十年的狼,带着一群崽子把家偷了

老鹰哥
2026-03-13 11:31:52
太突然!广州这家19年老酒楼结业!

太突然!广州这家19年老酒楼结业!

广州生活美食圈
2026-03-17 11:37:06
为了给前NBA状元霍华德生孩子,篮球宝贝壮壮究竟付出了多大代价

为了给前NBA状元霍华德生孩子,篮球宝贝壮壮究竟付出了多大代价

罗氏八卦
2026-03-10 18:00:03
2026-03-18 09:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
12300文章数 176415关注度
往期回顾 全部

科技要闻

激烈变阵后,阿里放出"关在笼子里的龙虾"

头条要闻

伊朗高官:将战斗到底 美国应记住越南战争的教训

头条要闻

伊朗高官:将战斗到底 美国应记住越南战争的教训

体育要闻

那个男人34岁拒绝买断 他要给状元当导师

娱乐要闻

姚晨曹郁官宣离婚,评论区全是冷嘲热讽

财经要闻

“永不爆雷的宇宙大所”掌门人,自首了

汽车要闻

10分钟电量20%→97% 低温实测比亚迪闪充

态度原创

健康
数码
房产
艺术
公开课

转头就晕的耳石症,能开车上班吗?

数码要闻

苹果发布AirPods Max 2:售3999元 搭载H2芯片/主动降噪更强

房产要闻

炸裂!狂拆642亩!那个要砸100亿的三亚香港城来了!

艺术要闻

风景如画,太美了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版