金融界2024年10月29日消息,国家知识产权局信息显示,广州视源电子科技股份有限公司申请一项名为“发音音素序列生成方法、电子设备及存储介质”的专利,公开号 CN 118824227 A,申请日期为 2023 年 4 月。
专利摘要显示,本申请实施例涉及语音合成技术领域,公开了一种发音音素序列生成方法、电子设备及存储介质。所述方法包括:基于原始音素序列和所述原始音素序列对应的分词信息构建第一对齐网络;基于音频数据,在所述第一对齐网络中搜索最优音素路径,获得最优音素路径对应的第一音素序列,所述第一音素序列包括静音音素;提取所述静音音素的音素特征,并基于所述音素特征对所述静音音素的可靠性进行评估;去除所述第一音素序列中未通过可靠性评估的所述静音音素,获得目标音素序列及各目标音素的持续时长。本申请在训练语音合成模型前,对音素序列中的静音音素进行可靠性评估,如果未通过评估,则去除,使得重新生成的音素序列可以训练出更优质的语音合成模型。
本文源自:金融界
作者:情报员
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.