网易首页 > 网易号 > 正文 申请入驻

AI说书媲美真人!豆包语音大模型升级长上下文理解

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

市面上很多的语音模型已经能保证足够自然的合成表现,但在音质、韵律、情感,以及多角色演绎上还有探索空间。特别是在小说演播场景下,想要媲美一流主播细腻的演播效果,要做好旁白和角色的区分演绎、角色情感的精确表达、不同角色的区分度等。

传统的小说TTS生成方式,需要提前给对话旁白、情感、角色打标签,而豆包语音模型则可以做到端到端合成,无需额外标签标注。

△传统语音模型和豆包语音模型合成链路的区别

改进Seed-TTS技术,合成语音效果媲美真人

原始Seed-TTS(技术报告:https://arxiv.org/pdf/2406.02430)是一种自回归文本到语音模型,主要分为4个主要模块:Speech Tokenizer、Autoregressive Transformer、Diffusion Model、Acoustic Vocoder。

其中Speech Tokenizer解析了参考音频信息,决定了合成音频的音色和全局风格;Autoregressive Transformer接收传入的目标文本和Speech Tokenizer的输出,进而生成出包含语义信息的Semantic Token;Diffusion Model会基于Semantic Token建模出包含语音信息的Acoustic Token;Acoustic Vocoder负责将Acoustic Token重建还原出最终的音频。

△原始Seed-TTS架构

为进一步提升小说演播下的语音表现力和长文本的理解,豆包技术团队对Seed-TTS进行了改进

  • 在数据上,小说音频做章节级别处理,保证了长文下的语音一致性和连贯性。
  • 在特征上,融合TTS前端提取的音素、音调、韵律信息和原始文本,提升发音和韵律的同时,保留小说语义。
  • 在结构上,将speech tokenizer改为speaker embedding,解除reference audio对于语音风格的限制,因而同一个发音人能在不同角色上作出更贴合人设的演绎。
  • 最后在目标合成文本之外,额外加入了上下文的信息,从而使得模型能够感知更大范围的语义信息,旁白和角色音表现更精准到位。

经过专业评测,优化后的豆包语音模型在小说演播场景,CMOS(Comparative Mean Opinion Score,与真人打对比分的一种主观评分方式)已达一流主播的90%+效果。

△优化后的豆包语音模型结构

技术落地番茄小说,惠及听书用户

豆包语音大模型团队以王明军、李满超两位演播圈大咖的声音为基础,采用新技术合成的千部有声书,已上线番茄小说,题材覆盖了历史、悬疑、灵异、都市、脑洞、科幻等热门书目类型。

据了解,未来豆包语音模型会继续探索前沿科技与业务场景的结合,追求更极致的“听”体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026-06-03 03:43:00
量子位 incentive-icons
量子位
追踪人工智能动态
12731文章数 176476关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

健康
亲子
房产
艺术
公开课

违规干细胞应用,暗藏致命隐患!

亲子要闻

《前面有多生气,后面就有多搞笑》

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

艺术要闻

抖音砸60个亿,要盖一座“不像医院”的医院?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版