近年来,人工智能生成内容(AIGC)技术迅猛发展,其主流模型框架以深度神经网络为基础,由早期的GAN、VAE向Transformer、Diffusion与DiT(Diffusion Transformer)发展演进。其中,大语言模型(LLM)文本生成技术日渐成熟,引领推动图像与声音生成技术的发展,并通过不断增强可控性以满足日益增长的个性化创作需求。音乐作为电影不可或缺的表达元素,顺应AIGC技术的发展与应用,AI音乐生成正逐步成为电影配乐创作的革新力量,迄今已分化出符号生成与音频生成两种技术路线,但现有方法对音乐流派等控制条件关注不足,一定程度上影响了音乐生成质量和多样性的提升。《基于多粒度注意力Transformer的电影音乐生成研究》一文以编码后的流派信息作为条件输入从零生成符号音乐,结合音乐重复周期的结构特点,采用多粒度注意力机制Transformer架构捕获音乐结构和上下文信息,并引入流派分类判别器,输出流派分类概率用于识别判断,为音乐生成提供风格控制。本方法在流派控制效果、音乐质量结构等方面较同类方法有较大提升,但在实用性上仍有改进空间,有待进一步研究探索。




2.1 基于深度学习的符号音乐生成

2.2 可控音乐生成


3.1 整体网络框架

3.2 数据表示

3.3 多粒度注意力Transformer

3.4 流派辅助分类判别器


4.1 数据集

4.2 实验设置

4.3 客观评价

4.4 主观评价




标准国际刊号:ISSN 1673-3215

国内统一刊号:CN 11-5336/TB





