金融界 2024 年 10 月 18 日消息,国家知识产权局信息显示,北京对酒当歌科技有限公司申请一项名为“一种基于零样本的歌声音色快速转换方法和装置”的专利,公开号 CN 118782016 A,申请日期为 2024 年 7 月。
专利摘要显示,本发明公开了一种基于零样本的歌声音色快速转换方法和装置,包括构建包含干人声和歌词文本的歌声数据集,将构建包含Hubert模型和残差量化码本的歌声特征解耦器来提取干人声的音频码本索引序列,并引入文本编码器来提取歌词文本的语素特征和语素索引序列,依次通过交叉预测来优化歌声特征解耦器,使其能够提升语音内容特征提取的准确性,在此基础上,引入表示韵律的音高特征和音色特征,通过对抗训练来增强生成器基于语音内容特征、音高特征以及音色特征生成合成人声的质量,实现歌曲人声音色转换为用户的音色的快速转换,且能保证转换质量。
本文源自:金融界
作者:情报员
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.