网易首页 > 网易号 > 正文 申请入驻

“6000亿合成交错语音文本”预训练,问答性能提升近3倍!

0
分享至



与基于文本的大语言模型(LLM)相比,语音语言模型(SpeechLM)接受语音输入并生成语音输出,能够实现更自然的人机交互。然而,传统的 SpeechLM 因缺乏无监督语音数据和并行语音-文本数据,很难像 LLM 一样进行大规模扩展。

为解决这一问题,来自清华大学和智谱的研究团队提出了一种新方法,利用从文本语料库中提取的大规模合成交错数据来扩展语音-文本预训练,从而消除了对并行语音-文本数据集的需求。这一方法从现有文本库中抽取文本片段,并使用 text-to-token 模型合成相应的语音片段,从而高效地构建语音-文本交错数据,而无需生成实际语音。

此外,通过在编码器中加入向量量化的瓶颈层,他们还采用了从自动语音识别(ASR)模型中提取的监督语音 tokenizer。即使在较低的采样率(如 12.5Hz)下,这种有监督的训练方法也能生成语义保存较好的离散语音 token,同时保持语音重构质量。



研究团队表示,从预训练的语言模型开始,并将预训练扩展到 1 万亿个 token(其中包括 6000 亿合成交错语音文本数据),他们在语音语言建模和口语问题解答方面取得了 SOTA,将语音问答任务方面的性能从之前的 13%(Moshi)提高到 31%。



图|随着合成交错数据量的增加,Spoken QA 的性能不断提高,大大超过了之前的 SOTA 模型 Moshi(左图)。合成交错语音文本数据的 pipeline(右图)。

他们进一步证明,通过使用语音对话数据对预训练的模型进行微调,他们开发出的一种端到端语音聊天机器人,在对话能力和语音质量方面都达到了与现有基线相当的性能,展现了在纯语音领域中应用的巨大潜力。

研究方法

研究团队提出了一种通过从文本语料库合成高质量交错语音-文本数据来扩展语音-文本预训练的新方法,使得大规模预训练无需依赖大量的语音数据集成为可能。完整方法框框架结合了语音 token 化、语音-文本交替数据生成以及两阶段训练。



图|研究方法概述。

在语音 token 化的设计上,他们采用了一种基于自动语音识别(ASR)的监督语音 tokenizer,通过在编码器中加入向量量化的瓶颈层和平均池化层来有效生成离散语音 token。

同时,为提高实时语音处理能力,tokenizer 还优化为支持流式推理从而降低在线应用中的延迟。



图|语音重构结果。使用了词错误率(WER)评估语义保留情况,并使用 VisQOL 和 MOSNet 评估不同语音tokenizer 在不同采样率下的重建质量。

语音-文本交错数据是 SpeechLM 预训练的关键。他们先是基于现有的文本到语音(TTS)数据集训练了一个 text-to-token 模型,能直接将文本片段转换为对应的语音 token,较传统多步生成方法效率更高且潜在错误的累积更少。

接着,他们使用训练好的 text-to-token 模型从大规模文本语料库中采样文本片段,并将其转换为语音 token。这些语音 token 与原始文本片段交错组合,从而生成高质量语音-文本交错数据。最终,他们基于 FineWeb 语料库为模型预训练生成了 6000 亿 token 的语音-文本交错数据。



图|文本到 token 模型的 WER。

之后,他们开展了一个两阶段训练,在第一阶段,使用合成语音-文本交错数据对模型进行预训练,在第二阶段,使用语音对话数据集微调预训练模型。

在语音-文本预训练阶段,他们通过使用不同用途的 4 类数据:语音-文本交错数据、无监督文本数据、无监督语音数据和有监督语音-文本数据进行预训练,使模型学习语音和文本之间的对齐关系。

到了监督微调阶段,他们利用语音对话数据进行微调,使模型能够支持端到端语音输入与输出。

实验结果

研究团队通过一系列实验验证了提出方法的有效性,包括语音语言建模、语音问答、语音聊天机器人等任务,展现了在多个语音应用场景中的突破性进展。

他们在语音语言建模任务中首次测试了大规模合成语音-文本交错数据的效果。结果表明,由他们的方法预训练的模型在所用任务上均优于现有方法。模型不仅能更精准地预测语音序列,还表现出更强的泛化能力,能够适应多样化的语音输入模式。



图|模型预训练结果。

在语音问答任务中,他们评估了模型处理自然语音问答的能力,特别是其在跨模态输入输出场景中的表现。相比之前 SOTA 模型 Moshi 的 13% 准确率,新模型将问答任务的准确率大幅提升至 31%,实现了近 3 倍的性能增长。

他们进一步微调预训练模型,开发出一个完全基于语音的端到端语音聊天机器人。评估结果显示,具有文本引导的 9B 模型在一般问答和基于知识的任务中优于所有基线模型,在语音质量评估方面也比其他模型取得了更好的结果。

值得注意的是,即使没有文本引导,9B 模型仍然与文本引导的基线模型表现相当,突出了该方法在文本和语音模态对齐方面的有效性。



图|端到端语音聊天机器人的评估结果。

此外,研究团队进一步开展了消融实验探究数据规模与组成、tokenizer 采样率和跨模态数据生成方法对模型性能的影响,为优化语音-文本预训练提供了实证依据。

首先,数据规模与组成部分的实验结果显示,移除交错数据时模型性能显著下降,表明这种数据在对齐语音和文本模态中发挥了核心作用。进一步增加交错数据的规模(从 1000 亿扩展至 6000 亿 token)后,语音问答和语音语言建模的表现均有明显提升,特别是在语音到文本(S→T)和语音到语音(S→S)模式下,任务性能显著优化。

此外,尽管未标注语音数据的移除对小模型影响不大,但在大规模模型(9B 参数)中,保留所有数据类型能够大幅提升整体性能。



图|关于交错数据尺度和预训练数据组成的消融研究。

之后,他们评估了 tokenizer 的采样率对模型表现的影响。研究发现,较低采样率(如 12.5Hz)在平衡语义保留与计算效率方面表现最佳,这为模型在实际应用中的优化提供了有力支持。

最后,跨度损坏率(即交错样本中文本和语音 token 的比例)对模型性能有显著影响。当损坏比率接近 0 或 1 时,交错样本主要由文本或语音 token 主导,导致性能下降。实验通过调整不同的损坏比率训练了多个 1.5B 模型,得出 0.2 到 0.4 之间的跨度损坏率效果最佳,进而选取了 0.3 作为最佳的跨度损坏率用于主要模型的训练。



图|采样率与平均准确率(a);跨度损坏率与平均准确率(b);监督微调后的交错数据 token 与平均性能对比(c)。

研究团队表示,他们将继续探索更高效的训练方法,进一步扩展模型规模与多语言能力,促进语音 AI 实现更高效的应用。

作者:阮文韵

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大厂中层(对标P7),回家生了个娃,被裁了。N+1

大厂中层(对标P7),回家生了个娃,被裁了。N+1

蚂蚁大喇叭
2024-12-03 22:10:02
上海一国企原副总经理被查!刚刚辞职

上海一国企原副总经理被查!刚刚辞职

第一财经资讯
2024-12-04 23:39:52
刘湘真的太美了,游泳世界冠军回应“擦边”,怒怼黑子!

刘湘真的太美了,游泳世界冠军回应“擦边”,怒怼黑子!

百里无心
2024-12-05 07:30:22
网友:赵薇,真落魄了!用的手机是苹果13pro max,真没钱了吧?

网友:赵薇,真落魄了!用的手机是苹果13pro max,真没钱了吧?

火山诗话
2024-12-04 20:57:18
这才是低龄儿童该看的动画短片!分享儿童学习英语口语的四个方法

这才是低龄儿童该看的动画短片!分享儿童学习英语口语的四个方法

避雷真
2024-12-03 12:58:42
16板,19板,19板,抱歉约基奇:你的篮板王悬了

16板,19板,19板,抱歉约基奇:你的篮板王悬了

篮球大视野
2024-12-04 21:24:31
明年开始,定期存款“超20万”的家庭,将不得不面对“三大麻烦”

明年开始,定期存款“超20万”的家庭,将不得不面对“三大麻烦”

巢客HOME
2024-12-04 11:15:03
为啥一定要和孩子分房睡?你永远想不到小朋友的虎狼之词有多劲爆

为啥一定要和孩子分房睡?你永远想不到小朋友的虎狼之词有多劲爆

美好客栈大掌柜
2024-12-05 00:10:03
因长得帅被越南女兵俘虏,1979年对越战争中,一男兵的神奇经历

因长得帅被越南女兵俘虏,1979年对越战争中,一男兵的神奇经历

史记趣闻
2024-11-30 20:20:03
越南内部传出消息,想要拿下南北高铁项目,必须同意技术转让

越南内部传出消息,想要拿下南北高铁项目,必须同意技术转让

现代小青青慕慕
2024-12-05 07:06:26
绝密揭露:金正日7年上位之路,5位情人,4个孩子,朝鲜未知故事

绝密揭露:金正日7年上位之路,5位情人,4个孩子,朝鲜未知故事

东北不拜
2023-10-15 20:50:13
41岁吴昕在豪宅阳台拍雪景,穿毛衣裙配皮裤放飞自我,少女感爆棚

41岁吴昕在豪宅阳台拍雪景,穿毛衣裙配皮裤放飞自我,少女感爆棚

南城无双
2024-12-04 01:35:03
外观、动力、内饰三升级!全新“特斯拉Model Y”要来了

外观、动力、内饰三升级!全新“特斯拉Model Y”要来了

沙雕小琳琳
2024-12-05 08:14:10
裁员9000人,又一汽车巨头崩了!

裁员9000人,又一汽车巨头崩了!

蒋东文
2024-12-04 09:42:08
三年蒸发3500亿!66岁的江苏首富,迎来至暗时刻

三年蒸发3500亿!66岁的江苏首富,迎来至暗时刻

毒sir财经
2024-12-03 20:32:02
A股:不用再猜了!今天星期四,大盘将迎来欢天喜地的跳空大阳线

A股:不用再猜了!今天星期四,大盘将迎来欢天喜地的跳空大阳线

一丛深色花儿
2024-12-05 03:16:57
C罗!又赚4亿,沙特情绪价值拉满了

C罗!又赚4亿,沙特情绪价值拉满了

球文速递
2024-12-04 14:36:33
新任“主席”特型演员崭露头角,唐国强不再是唯一选择!

新任“主席”特型演员崭露头角,唐国强不再是唯一选择!

小毅说事
2024-12-05 00:05:08
赖清德恐无法返台,法国在玩火,台陆委会要下狠手,大陆要出手?

赖清德恐无法返台,法国在玩火,台陆委会要下狠手,大陆要出手?

逍遥史记
2024-12-04 11:59:11
炸裂!美女护士成为副院长,容貌绝佳颜值高,亮丽背后是日夜奋斗

炸裂!美女护士成为副院长,容貌绝佳颜值高,亮丽背后是日夜奋斗

番茄娱乐加
2024-10-17 06:57:56
2024-12-05 09:56:49
中国科技新闻网
中国科技新闻网
科技新闻传播,科技知识普及
5442文章数 6588关注度
往期回顾 全部

教育要闻

一高中生一跃而下,疑因上课玩手机被处罚,留下两段话太痛心

头条要闻

62年来法国政府首次被议会推翻 法总理将递交辞呈

头条要闻

62年来法国政府首次被议会推翻 法总理将递交辞呈

体育要闻

哈登,我不做大哥好多年

娱乐要闻

琼瑶在家中自杀离世,千字遗书曝光

财经要闻

代表青春的人人网,怎么“又”凉了?

科技要闻

美国加大制裁之时 中国半导体出口破万亿

汽车要闻

表现够全能 柴油版二代哈弗H9或许更适合家用

态度原创

艺术
教育
数码
游戏
家居

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

教育要闻

船舶与海洋工程专业就业方向有哪些?

数码要闻

华为智慧屏11月出货量暴增30% 已站稳第二阵营

动视宣布 将于下周提供《黑色行动6》7天免费试玩

家居要闻

意式轻奢 和风兰庭

无障碍浏览 进入关怀版