我校计算机学院（软件学院）刘瑞研究员团队最新研究论文被人工智能顶级国际会议AAAI2024录用|aaai|学术论文|中国计算机学会

我校计算机学院（软件学院）刘瑞研究员团队最新研究论文被人工智能顶级国际会议AAAI2024录用

2023-12-28 18:56:02　来源: 内蒙古大学

内蒙古举报

分享至

对话式语音合成（Conversational Speech Synthesis，CSS）旨在在对话环境中以适当的语调、语气和情感进行语音表达。然而，由于情感对话语音数据集的缺乏和情感建模的困难，之前的研究对于情感理解和情感表达问题的研究还不够深入。我校计算机学院（软件学院）刘瑞研究员团队联合字节跳动（新加坡）公司研究团队，提出了一种新颖的情感对话语音合成模型，名为ECSS，显著提升了对话场景下合成语音的自然度以及情感表现力。

图1 ECSS模型架构图

首先，对于对话情感理解，引入了一种基于异构图的情感上下文建模机制，以对话文本、语音、说话人身份、情感类别和情感强度等多源对话历史知识作为输入，对对话上下文进行建模，以准确的理解对话上下文中的情感线索。其次，对于对话情感表达，提出基于对比学习的情感渲染器模块，以准确推断目标话语的情感风格，从而实现准确的对话情感渲染。实验结果表明，我们的模型在对话语音自然度和情感表现力方面明显优于基线模型，为对话式人工智能的发展提供了新的思路。

论文“Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling”被中国计算机学会（CCF）推荐的A类人工智能国际学术会议 The 38th Annual AAAI Conference on Artificial Intelligence（AAAI 2024）录用。AAAI是由人工智能促进协会举办的国际人工智能领域顶级会议之一，汇集了全球最顶尖的人工智能领域专家学者，一直是人工智能界的研究风向标，在学术界久负盛名。

文章作者包括：刘瑞研究员（第一作者），2023级博士生胡一帆（导师外第一作者），以及新加坡字节跳动公司青年科学家任意。这项研究得到了国家自然科学基金青年基金、内蒙古自治区“草原英才”工程项目、自治区留学人员创新创业启动支持计划、广东省数字孪生人重点实验室（华南理工大学）开放课题、内蒙古大学骏马计划高层次人才引进项目、内蒙古自治区本级引进高层次人才科研支持等项目的支持。

来源：内蒙古大学新闻网

编辑：田雨禾

责编：刘洁徐文瑾

校审：莫伶刘雪峰

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.