网易首页 > 网易号 > 正文 申请入驻

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。

随着多类型大模型的飞速发展,全球 AI 已经进入到了多模交互时代。

2024 年 5 月,OpenAI 推出了全新的多模态模型 GPT4o,引起全球轰动。其中 GPT4o 展现出了与人类相近的自然语言交互能力,实现了 AI 能同时读懂人类语音中的内容及情绪,并实时做出反馈。同时,GPT4o 也给众多语音研究人员带来「新的春天」,语音文本多模态大模型成为热门研究方向。

实现类似 GPT4o 实时语音交互能力的核心是模型能够直接在语音模态上进行理解和推理,这与传统的语音对话功能有本质的不同。现有的语音对话系统中主要包含 3 个过程:首先将输入语音内容转换为文本,其次利用大语言模型进行文本推理,最后利用语音合成系统生成并输出语音。

然而,类似的多阶段串联系统存在一些缺陷,比如模型无法理解语音中包含的情绪及其它非文本内容信息;同时由于额外的语音识别及合成带来的时间开销导致 AI 回复迟缓等实时性问题。

针对以上问题,学术界开始研究支持端到端、语音到语音的多模态大模型。为方便结合大语言模型的研究成果,通常会将语音离散化为 Audio Token,并基于 Audio Token 进行学习和推理。这其中具有代表性的工作包括 SpeechGPT、Spectron 等,它们均采用
QuestionAudio-QuestionText-AnswerText-AnswerAudio 等形式来降低直接对语音进行学习推理的难度。

但同时,这些方法也需要生成完整的 AnswerText 后才能生成 AnswerAudio,无法解决实时性问题。

为解决上述问题,我们提出了Mini-Omni,第一个开源的端到端实时语音多模态模型,支持语音输入、流式语音输出的多模态交互能力。具体来讲,我们提出了文本-语音同时生成的方案,通过让已生成的文本 token 指导生成语音 token,有效降低了直接推理语音内容的难度,同时避免了等待生成完整文本答案带来的时间消耗。



  • 论文题目:Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
  • 论文地址:https://arxiv.org/abs/2408.16725
  • 代码仓库:https://github.com/gpt-omni/mini-omni

针对多层级的音频编码方案,本文采用不同层级延迟并行输出的方案减小音频推理长度,有效解决实时性问题。同时还提出了多任务同时推理的生成方法进一步加强模型的语音推理能力。另一方面,本文所采用训练方案可有效迁移至任意语言大模型,通过增加少量参数及分阶段训练,在尽可能保留模型原始推理能力的同时,为模型加上 「听、说」的语音交互能力

为了验证方案的有效性,Mini-Omni 在使用仅 0.5B 的小模型和少量开源及合成数据的情况下,在实时语音问答及语音识别等方面表现出令人惊喜的效果。

总结来说,本文主要贡献为:

  • 提出了首个开源的端到端、实时语音交互的多模态模型解决方案,支持语音流式输出,不需要额外的 ASR 或 TTS 系统。
  • 推理过程中,可同时生成语音和文本信息,通过文本指导语音生成,有效降低语音推理的学习难度。
  • 提出多阶段的训练方案,可通过少量开源或合成数据使任意语言模型具备语音交互能力。

Mini-Omni 模型架构

Mini-Omni 整体模型框架如下图所示,模型输入端可以是语音或文本,输出端同时包含文本和语音。为复用语言模型「预测下一个 token」的学习范式,输出侧语音采用离散编码,本文采用了 SNAC 编解码方案。

针对语音交互场景,输入语音经过预训练 whisper 的语音编码模块进行连续特征提取,然后通过 2 层 MLP 对齐语音信息与文本信息。输出侧,每一步会通过音频解码头和文本解码头同时进行文本 token 与语音 token 解码,然后将输出的音频表征和文本表征进行特征融合,再作为下一步的输入。同时,在推理过程中,可将输出的语音 token 流式输入至 SNAC 解码器中生成语音,实现低延迟的语音交互。

通过采用文本信息指导语音信息输出的形式,有效降低了直接进行语音输出推理的学习难度,实现少量数据即可使语言模型具备语音问答能力。这种一边生成文本,一边生成对应语音的形式功能上类似于「在线 TTS 系统 (online TTS)」,具有较好的灵活性。



文本指导下的音频生成

为降低直接推理语音信息的学习难度,以及减少推理过程中语音 token 长度,我们采用了文本和语音延迟并行生成的方案,其示意图如下。



本文所采用的 SNAC 方案,每一帧具有 7 个有效语音 token,对应音频时长为 80ms。一种语音建模方案是将语音的所有 token 平铺展开进行顺序推理,类似方案在音乐生成领域已被验证生成效果较好。但也存在语音 token 序列长、学习难度高等问题。为实现实时语音推理,我们采用延迟并行推理的方案

具体来讲,模型每一步同时生成 8 个 token,包括 7 个语音 token 和 1 个文本 token。由于音频依赖文本内容,而音频的 7 个 token 之间从前到后是由粗到细的建模关系,所以在推理开始时如上图 (b) 所示。首先生成文本的第一个 token,然后生成文本的第二个 token 和第一层音频的第一个 token,以此类推。先输出文本 token 主要为了语音 token 在生成过程中有文本内容进行参考。

同时,由于文本指导语音生成方案的灵活性,我们在实验中发现,推理时在一个批次中同时进行 audio-to-audio 和 audio-to-text 两个任务,并用后者的文本 token 替换前者的文本 token 以指导前者的语音生成(如上图 c 中所示),可有效提升语音对话的能力。

让每个模型都能「听说」

我们提出了一种主要基于适配器的模型能力扩展方法,具体学习过程可以分为三个阶段:

首先模态对齐:此阶段的目标是增强文本模型理解和生成语音的能力。过程中,Mini-Omni 的 LLM 模块完全冻结,只在语音理解和生成两个适配器中进行梯度更新。在这个阶段,我们使用开源语音识别 (ASR) 和语音合成 (TTS) 数据集来进行训练。

其次适应训练:完成新的模态与文本模态的输入对齐后,将语音适配器冻结。在这个阶段中,我们将可用的文本问答对中的问题部分采用开源多音色的语音合成系统进行语音数据合成,生成语音问答数据集。我们关注于训练模型在给定音频输入时的文本推理能力。模型使用语音识别 (ASR)、语音问答 (AudioTextQA) 和文本问答 (TextTextQA) 任务的数据集进行训练。

最后多模态微调:在最后阶段,我们使用全面的数据对整个模型进行微调,新增如全语音问答 (AudioAudioQA)、文本语音问答 (TextAudioQA) 等形式数据集。此时,除了音频所有模型权重都会参与训练。由于适配器训练期间已经处理了主要的模态对齐任务,原始模型的能力得以最大限度地保留。

通过上述多阶段的训练流程,结合开源语音数据,本文只需合成少量的语音问答数据即可使任意语言模型具备「听说」的能力,实现纯语音的端到端自然交互

实验效果

我们主要采用开源语音或文本问答数据进行训练,具体可参考下表。其中 A1 和 T1 表示音频及对应的文本内容,A2、T2 同理。针对问答场景,1 表示问题,2 表示对应问答的答案。



下图中,我们展示了 Audio-to-Text、Audio-to-Audio、Batch-Audio-to-Audio 三种任务中 Mini-Omni 的具体表现。



更多研究细节,可参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“人老两个坎,熬过就长寿”,两个坎是指哪两年?老年人要多关注

“人老两个坎,熬过就长寿”,两个坎是指哪两年?老年人要多关注

荷兰豆爱健康
2024-11-02 21:38:10
40岁保姆色诱70岁教授,“性猝死”背后真相是如何露馅的?

40岁保姆色诱70岁教授,“性猝死”背后真相是如何露馅的?

苏大强专栏
2024-07-26 11:50:51
折腾7年不买了!泰国取消中国订单,我国造一半的潜艇怎么办?

折腾7年不买了!泰国取消中国订单,我国造一半的潜艇怎么办?

常高俊April工作室
2024-10-31 10:51:41
恭喜!香港主持人与同性爱人终成眷属,前TVB一线花旦亲自到场送祝福,一路走来太不容易

恭喜!香港主持人与同性爱人终成眷属,前TVB一线花旦亲自到场送祝福,一路走来太不容易

你约电影
2024-11-03 10:19:41
稀土概念股或成为A股热点方向:挖掘翻倍股

稀土概念股或成为A股热点方向:挖掘翻倍股

新浪财经
2024-11-03 17:26:12
约基奇:我只是来打球的 劳资协议这些我不懂 这也不是我的工作

约基奇:我只是来打球的 劳资协议这些我不懂 这也不是我的工作

直播吧
2024-11-02 14:56:14
胜负已定!美大选被曝造假?奥巴马情绪失控,事情果然不简单

胜负已定!美大选被曝造假?奥巴马情绪失控,事情果然不简单

傲骨真心
2024-11-02 19:13:25
世界泳联官方:法国选手马尔尚和美国选手道格拉斯成为年度总冠军

世界泳联官方:法国选手马尔尚和美国选手道格拉斯成为年度总冠军

懂球帝
2024-11-02 21:19:22
国外电视台为了收视率,女主播们露球播报,观众每天都会准时收看

国外电视台为了收视率,女主播们露球播报,观众每天都会准时收看

影孖看世界
2024-05-11 20:23:58
相当炸裂!距今约5000年大墓被发现,网友:在挖就进入神话时代了

相当炸裂!距今约5000年大墓被发现,网友:在挖就进入神话时代了

历史碟中谍
2024-11-02 10:46:29
维埃里:我曾和大罗一起训练,看他动作心想这人哪个星球来的

维埃里:我曾和大罗一起训练,看他动作心想这人哪个星球来的

直播吧
2024-11-02 22:45:18
笑不活了,谁家用甘蔗做绿植啊?网友:消费降级,一个比一个离谱

笑不活了,谁家用甘蔗做绿植啊?网友:消费降级,一个比一个离谱

奇特短尾矮袋鼠
2024-11-02 02:31:10
我国单方面免签国家新增九个,我国的免签“朋友圈”扩大至29国

我国单方面免签国家新增九个,我国的免签“朋友圈”扩大至29国

地理沙龙
2024-11-03 07:30:28
奇才决定交易!三分球43中22!普尔终于打成球队老大……

奇才决定交易!三分球43中22!普尔终于打成球队老大……

篮球实战宝典
2024-11-03 18:23:28
央视直播3日至10日法兰克福冠军赛详细赛程,陈幸同首战梅谢芙

央视直播3日至10日法兰克福冠军赛详细赛程,陈幸同首战梅谢芙

乒乓球球
2024-11-02 20:35:20
明代大学士宅第即将焕新,苏州又一老宅启动修缮

明代大学士宅第即将焕新,苏州又一老宅启动修缮

极目新闻
2024-11-03 17:40:29
已故老人存款支取难!银行新规来了,全国已开始执行

已故老人存款支取难!银行新规来了,全国已开始执行

巢客HOME
2024-11-03 07:15:18
Proton VPN 黑色星期五,两年计划直降 70%

Proton VPN 黑色星期五,两年计划直降 70%

科技的视界
2024-11-03 00:29:44
美媒称大选后或有创纪录数量富人离开美国

美媒称大选后或有创纪录数量富人离开美国

参考消息
2024-11-02 15:28:36
王楠儿子发育过猛!14岁身高就近1米8,可惜颜值不像妈

王楠儿子发育过猛!14岁身高就近1米8,可惜颜值不像妈

时髦范
2024-09-11 09:21:06
2024-11-03 20:26:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
9638文章数 142055关注度
往期回顾 全部

科技要闻

阿里全球数学竞赛:老师违规帮姜萍被处分

头条要闻

文旅局副局长出镜 用英语、东北话、普通话推介大米

头条要闻

文旅局副局长出镜 用英语、东北话、普通话推介大米

体育要闻

NBA最富老板建球场,最在意的是厕所?

娱乐要闻

刘德华台北演唱会汉服献唱《中国人》

财经要闻

巴菲特疯狂囤现金 还卖掉1亿股苹果股票

汽车要闻

高性能王者行政座驾 全新宝马M5正式上市

态度原创

教育
房产
本地
亲子
公开课

教育要闻

考研英语长难句|Day113

房产要闻

重磅!广州楼市网络影响力巅峰榜震撼揭晓,你心仪的楼盘上榜了吗?

本地新闻

云游中国|我与这座城市 合得来 不怕肥

亲子要闻

爸爸趁宝蓝睡觉,替换了宝蓝最爱吃的西瓜,最后被发现了吗?

公开课

AI如何揭开大自然和宇宙的奥秘

无障碍浏览 进入关怀版