网易首页 > 网易号 > 正文 申请入驻

Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

0
分享至

机器之心报道

编辑:Sia、杨文

六边形战士来了。

今天,kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。

结果显示,Kimi-Audio 总体性能排名第一,几乎没有明显短板。

例如在 LibriSpeech ASR 测试上,Kimi-Audio 的 WER 仅 1.28%,显著优于其他模型。VocalSound 测试上,Kimi 达 94.85%,接近满分 。MMAU 任务中,Kimi-Audio 摘得两项最高分;VoiceBench 设计评测对话助手的语音理解能力,Kimi-Audio 在所有子任务中得分最高,包括一项满分。

研发人员开发了评估工具包,可在多个基准任务上对音频 LLM 进行公平、全面评估 ,五款音频模型(Kimi-Audio、Qwen2-Audio、Baichuan-Audio、StepAudio、Qwen2.5-Omni)在各类音频基准测试中的表现对比。紫线(Kimi-Audio)基本覆盖最外层,表明其综合表现最佳。

目前,模型代码、模型检查点以及评估工具包已经在 Github 上开源。

项目链接:https://github.com/MoonshotAI/Kimi-Audio

新颖的架构设计

为实现 SOTA 级别的通用音频建模, Kimi-Audio 采用了集成式架构设计,包括三个核心组件 —— 音频分词器(Audio Tokenizer)、音频大模型(Audio LLM)、音频去分词器(Audio Detokenizer)。

这一架构使 Kimi-Audio 能够在单一模型框架下,流畅地处理从语音识别、理解到语音对话等多种音频语言任务。

Kimi-Audio 由三个主要组件组成:音频分词器(Audio Tokenizer)、音频大模型(Audio LLM)、音频去分词器(Audio Detokenizer)。

具体而言,音频分词器(Audio Tokenizer)负责将输入音频转化为通过矢量量化(vector quantization)得到的离散语义 token,帧率为 12.5Hz。同时,音频分词器还提取连续的声学向量,以增强感知能力。

这种结合方式使模型既具有语义上的压缩表示,又保留了丰富的声学细节,从而为多种音频任务提供了坚实的表示基础。

音频大模型(Audio LLM)是系统的核心,负责生成语义 token 以及文本 token,以提升生成能力。其架构基于共享 Transformer 层,能够处理多模态输入,并在后期分支为专门用于文本和音频生成的两个并行输出头。

音频去分词器(Audio Detokenizer)使用流匹配(flow matching)方法,将音频大模型预测出的离散语义 token 转化为连贯的音频波形,生成高质量、具有表现力的语音。

数据建构与训练方法

除了新颖的模型架构,构建 SOTA 模型的核心工作还包括数据建构和训练方法。

为实现 SOTA 级别的通用音频建模,Kimi-Audio 在预训练阶段使用了约 1300 万小时覆盖多语言、音乐、环境声等多种场景的音频数据,并搭建了一条自动处理 “流水线” 生成高质量长音频 - 文本对。

预训练后,模型进行了监督微调(SFT),数据涵盖音频理解、语音对话和音频转文本聊天三大类任务,进一步提升了指令跟随和音频生成能力。

Kimi-Audio 预训练数据处理流程的直观展示。简单来说,就是把原始音频一步步净化、切分、整理,变成干净、有结构、有标注的训练数据。

在训练方法上,为实现强大的音频理解与生成能力,同时保持模型的知识容量与智能水平,研发人员以预训练语言模型为初始化,设计了三个类别的预训练任务:

仅文本和仅音频预训练,用于分别学习两个模态的知识;音频到文本的映射,促进模态转换能力;音频文本交错训练,进一步弥合模态间的鸿沟。

在监督微调阶段,他们设计了一套训练配方,以提升训练效率与任务泛化能力。

考虑到下游任务的多样性,研究者没有设置特殊的任务切换操作,而是为每个任务使用自然语言作为指令;对于指令,他们构建了音频和文本版本(即音频由 Kimi-TTS 在零样本方式下基于文本生成),并在训练期间随机选择一种;为了增强遵循指令能力的鲁棒性,他们使用大语言模型为 ASR 任务构建了 200 条指令,为其他任务构建了 30 条指令,并为每个训练样本随机选择一条。他们构建了大约 30 万小时的数据用于监督式微调。

如表 1 和表 2 所示,他们基于全面的消融实验,在每个数据源上对 Kimi-Audio 进行了 2-4 个训练周期的微调,使用 AdamW 优化器,学习率从 1e⁻⁵ 到 1e⁻⁶ 进行余弦衰减,使用 10% 的 token 进行学习率预热。

此外,他们还分三个阶段训练音频解码器。首先,使用预训练数据中的大约 100 万小时的音频,对流匹配模型和声码器进行预训练,以学习具有多样化音色、语调和质量的音频。其次,采用分块微调策略,在相同的预训练数据上将动态块大小调整为 0.5 秒到 3 秒 。最后,在 Kimi-Audio 说话者提供的高质量单声道录音数据上进行微调。

评估结果

研究者基于评估工具包,详细评估了 Kimi-Audio 在一系列音频处理任务中的表现,包括自动语音识别(ASR)、音频理解、音频转文本聊天和语音对话。他们使用已建立的基准测试和内部测试集,将 Kimi-Audio 与其他音频基础模型(Qwen2-Audio 、Baichuan-Audio、Step-Audio、GLM4-Voice 和 Qwen2.5-Omini )进行了比较。

自动语音识别

研究者对 Kimi-Audio 的自动语音识别(ASR)能力进行了评估,涵盖了多种语言和声学条件的多样化数据集。如表 4 所示,Kimi-Audio 在这些数据集上持续展现出比以往模型更优越的性能。他们报告了这些数据集上的词错误率(WER),其中较低的值表示更好的性能。

值得注意的是,Kimi-Audio 在广泛使用的 LibriSpeech 基准测试中取得了最佳结果,在 test-clean 上达到了 1.28 的错误率,在 test-other 上达到了 2.42,显著超越了像 Qwen2-Audio-base 和 Qwen2.5-Omni 这样的模型。在普通话 ASR 基准测试中,Kimi-Audio 在 AISHELL-1(0.60)和 AISHELL-2 ios(2.56)上创下了最先进的结果。此外,它在具有挑战性的 WenetSpeech 数据集上表现出色,在 test-meeting 和 test-net 上均取得了最低的错误率。最后,研究者在内部的 Kimi-ASR 测试集上的评估确认了该模型的鲁棒性。这些结果表明,Kimi-Audio 在不同领域和语言中均具有强大的 ASR 能力。

音频理解

除了语音识别外,研究者还评估了 Kimi-Audio 理解包括音乐、声音事件和语音在内的各种音频信号的能力。表 5 总结了在各种音频理解基准测试上的性能,通常较高的分数表示更好的性能。

在 MMAU 基准测试中,Kimi-Audio 在声音类别(73.27)和语音类别(60.66)上展现出卓越的理解能力。同样,在 MELD 语音情感理解任务上,它也以 59.13 的得分超越了其他模型。Kimi-Audio 在涉及非语音声音分类(VocalSound 和 Nonspeech7k )以及声学场景分类(TUT2017 和 CochlScene)的任务中也处于领先地位。这些结果突显了 Kimi-Audio 在解读复杂声学信息方面的高级能力,超越了简单的语音识别范畴。

音频到文本聊天

研究者使用 OpenAudioBench 和 VoiceBench 基准测试 评估了 Kimi-Audio 基于音频输入进行文本对话的能力。这些基准测试评估了诸如指令遵循、问答和推理等各个方面。性能指标因基准测试而异,较高的分数表示更好的对话能力。结果如表 6 所示。

在 OpenAudioBench 上,Kimi-Audio 在多个子任务上实现了最先进的性能,包括 AlpacaEval、Llama Questions 和 TriviaQA,并在 Reasoning QA 和 Web Questions 上取得了极具竞争力的性能。VoiceBench 评估进一步证实了 Kimi-Audio 的优势。它在 AlpacaEval(4.46)、CommonEval(3.97)、SD-QA(63.12)、MMSU(62.17)、OpenBookQA(83.52)、Advbench(100.00)和 IFEval(61.10)上均持续超越所有对比模型。Kimi-Audio 在这些全面的基准测试中的整体表现证明了其在基于音频的对话和复杂推理任务中的卓越能力。

语音对话

最后,他们基于多维度的主观评估,评估了 Kimi-Audio 的端到端语音对话能力。如表 7 所示,Kimi-Audio 与 GPT-4o 和 GLM-4-Voice 等模型在人类评分(1-5 分量表,分数越高越好)的基础上进行了比较。

除去 GPT-4o,Kimi-Audio 在情感控制、同理心和速度控制方面均取得了最高分。尽管 GLM-4-Voice 在口音控制方面表现略佳,但 Kimi-Audio 的整体平均得分仍高达 3.90,超过了 Step-Audio-chat(3.33)、GPT-4o-mini(3.45)和 GLM-4-Voice(3.65),并与 GPT-4o(4.06)仅存在微小差距。总体而言,评估结果表明,Kimi-Audio 在生成富有表现力和可控性的语音方面表现出色。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴勒斯坦的悲剧告诉全世界,即便富士山炸了,也不能收留日本人!

巴勒斯坦的悲剧告诉全世界,即便富士山炸了,也不能收留日本人!

而长终
2026-05-20 23:19:14
孙杨在代言品牌广告中拿反望远镜,官方客服:将核实

孙杨在代言品牌广告中拿反望远镜,官方客服:将核实

大象新闻
2026-05-20 20:51:56
张艺谋给《主角》找的美人:才20集就走了4个,演技最夯的杀青了

张艺谋给《主角》找的美人:才20集就走了4个,演技最夯的杀青了

娱乐故事
2026-05-20 20:38:26
“我都快要生了,他咋还不来娶我?”母亲:放心,200万彩礼不多

“我都快要生了,他咋还不来娶我?”母亲:放心,200万彩礼不多

广西秦胖胖
2026-05-13 10:43:57
下一任007选角标准曝光:亨利·卡维尔因年龄出局

下一任007选角标准曝光:亨利·卡维尔因年龄出局

赴一场山海啊
2026-05-19 02:07:52
福建杨梅协会会长恳求给果农生路:希望大家不要一棍子打死,杨梅事件被曝光后,当地订单急剧减少,部分省份甚至“一刀切”禁入,严重滞销

福建杨梅协会会长恳求给果农生路:希望大家不要一棍子打死,杨梅事件被曝光后,当地订单急剧减少,部分省份甚至“一刀切”禁入,严重滞销

极目新闻
2026-05-20 16:01:06
普京到了,美俄元首为何接连访华?

普京到了,美俄元首为何接连访华?

中国新闻周刊
2026-05-20 00:12:34
乾隆临终告诉嘉庆:你叔叔弘昼,一辈子装疯卖傻是为了让朕放心

乾隆临终告诉嘉庆:你叔叔弘昼,一辈子装疯卖傻是为了让朕放心

别人都叫我阿腈
2026-05-20 21:17:07
二十多年来首次!普京访华打破惯例,德媒:中国正在成为世界中心

二十多年来首次!普京访华打破惯例,德媒:中国正在成为世界中心

青烟小先生
2026-05-21 10:06:19
垃圾食品清单已列出,燕麦片排第2,排第1的很多人喜欢吃

垃圾食品清单已列出,燕麦片排第2,排第1的很多人喜欢吃

路医生健康科普
2026-05-17 19:35:03
没想到,马斯克离开中国才一天,78岁母亲随口一句话让网友破防

没想到,马斯克离开中国才一天,78岁母亲随口一句话让网友破防

观史搜寻着
2026-05-21 02:57:34
伊朗做出两大重要让步!沙特媒体曝光,伊朗做出巨大让步

伊朗做出两大重要让步!沙特媒体曝光,伊朗做出巨大让步

刘拕说体坛
2026-05-21 00:47:59
杨瀚森要回归了,NBA回来的必须用,如何才能不破坏化学反应?

杨瀚森要回归了,NBA回来的必须用,如何才能不破坏化学反应?

兵哥篮球故事
2026-05-20 21:48:54
200架波音大单落地,中国成功从美国手中,换回一个关键承诺

200架波音大单落地,中国成功从美国手中,换回一个关键承诺

普陀动物世界
2026-05-21 01:27:39
专机刚落地就要起飞?普京24小时快闪北京,只待一天要签40份文件

专机刚落地就要起飞?普京24小时快闪北京,只待一天要签40份文件

流史岁月
2026-05-20 18:00:07
被解雇原因?Shams:基德对东契奇交易给予了一定程度的支持

被解雇原因?Shams:基德对东契奇交易给予了一定程度的支持

懂球帝
2026-05-21 08:05:32
AMD全球最大研发中心在此!苏姿丰盛赞中国:这是真正理解开放创新的地方

AMD全球最大研发中心在此!苏姿丰盛赞中国:这是真正理解开放创新的地方

快科技
2026-05-19 15:53:33
阿斯麦CEO:中国会加速自主,这是存亡问题

阿斯麦CEO:中国会加速自主,这是存亡问题

观察者网
2026-05-21 09:11:37
200万!华为系“迈巴赫”,6月正式上市!

200万!华为系“迈巴赫”,6月正式上市!

新浪财经
2026-05-19 20:53:18
国家管网集团北京管道原副总工程师陆忠接受审查调查

国家管网集团北京管道原副总工程师陆忠接受审查调查

界面新闻
2026-05-20 19:30:58
2026-05-21 11:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13045文章数 142651关注度
往期回顾 全部

科技要闻

好到离谱也不够!英伟达交出816亿美元营收

头条要闻

湖南一山村洪灾突破历史极值 洪水暴涨8.76米满目疮痍

头条要闻

湖南一山村洪灾突破历史极值 洪水暴涨8.76米满目疮痍

体育要闻

常住人口7000的小镇,拥有了一支德甲球队

娱乐要闻

同行吐槽汪涵野心重 爆雷37万人受损

财经要闻

英伟达业绩超预!指引再新高仍不够亮眼

汽车要闻

26.98万起步 看小鹏GX如何诠释一车多能以及满配的科技与豪华

态度原创

本地
教育
艺术
房产
公开课

本地新闻

用云锦的方式,打开江苏南京

教育要闻

普林斯顿大学结束133年无人监考传统,AI作弊成导火索

艺术要闻

毛主席写给李任潮的信,草书天花板!30岁练字晚不晚?

房产要闻

顺德澐璟楼王『澐冠』启幕|一场高阶共鸣的静奢美学之约

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版