开源数据 | MagicHub开源语音对话大模型高品质多方言语音数据集|翻译|语料库|大语言模型|magichub

开源数据 | MagicHub开源语音对话大模型高品质多方言语音数据集

2024-07-09 14:26:06　来源: 晴数智慧

北京举报

分享至

近日，法国知名开源AI研究实验室Kyutai推出了一款具备看、听、说多模态大模型——Moshi。Moshi功能与GPT-4o相似，可以听取人的语音提问后进行实时推理回答内容。然而，Moshi最吸引人的是全面开源，并可以支持在端侧运行。这将大大提振语音对话模型在端侧的普及。

Moshi作为一个端到端的多模态模型，不仅在语音处理上有所突破，更重要的是它让我们看到了不一样的人机交互方式。近期国内的从业者也开始下载Moshi并试用。考虑到Moshi目前对普通话支持较差，我们很期待国内产品优化对普通话的支持。最好再支持一些粤语、四川话、上海话、天津话等有特色的地方语言，就像汽车导航那样一定会非常有意思！

对于中国的老百姓来说，能够用自己熟悉的方言进行交流将大大提升沟通效率和亲近感。大模型公司通过提供方言对话功能，也能够更好地满足这部分用户的需求，从而增加用户黏性和忠诚度。同时，方言对话也能够为用户提供更个性化的服务体验，进一步巩固企业在市场中的竞争优势。

因此，中国的语音对话大模型在各种应用场景下，方言的对话理解能力，成为落地的刚需。

然而，方言是一种交互起来很便捷，但书写起来却非常困难的语言。很多方言几乎没有自己的用字体系。这使得方言数据的获得非常困难，特别是高质量方言数据集。

在这个背景下，MagicHub积极行动，开源了多个高质量方言数据集，旨在推动方言语音大模型的发展。这些方言对话数据由晴数智慧对话语音专家进行设计，并针对不同的方言构建了相应的用词体系。它们不仅能够增强模型的方言识别能力，还能为方言语音合成、翻译等领域提供有力支持。

本次开源的方言对话数据其价值主要体现在：

真实的自然对话，能更深入地了解方言语法和表达特点；
说话人多样，覆盖方言主要代表区域；
其内容经过了精细的人机协作pipeline清洗，保证了品质，是识别、合成、翻译等多场景的重要原料。

开源方言数据集

天津方言对话语料库

https://magichub.com/datasets/tianjin-dialect-conversational-speech-corpus-2/

四川方言日常语音语料库

https://magichub.com/datasets/sichuan-dialect-scripted-speech-corpus-daily-use-sentence/

粤语日常用语语料库

https://magichub.com/datasets/guangzhou-cantonese-scripted-speech-corpus-daily-use-sentence/

上海方言日常用语语料库

https://magichub.com/datasets/shanghai-dialect-scripted-speech-corpus-daily-use-sentence/

郑州方言日常用语语料库

https://magichub.com/datasets/zhengzhou-dialect-scripted-speech-corpus-daily-use-sentence/

*以上数据集版权归Magic Data所有，支持学术研究，未经允许禁止商用。
更多热门数据集下载
https://magichub.com/datasets/

除此之外，我们还有数万小时的各地方言商用数据，是构建语音大模型的高品质数据，欢迎大家咨询！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.