如何让 AI 影片自带 BGM？CogVideoX+CogSound 技术详解|音效|编码器

如何让 AI 影片自带 BGM？CogVideoX+CogSound 技术详解

2024-11-11 11:27:27　来源: 学术头条

北京举报

分享至

早在 2021 年，我们便开始探索如何基于视频数据大规模训练视频生成模型，先后推出了 CogVideo（Hong et al. 2022）和 CogVideoX（Yang, Teng et al. 2024）系列模型。

CogVideoX 团队在数据筛选、模型结构、视频理解、transformer 架构和训练框架等多个方面进行了多项创新，并验证了 scaling law 在视频生成方面的有效性。

2024 年 7 月，清言上线了国内首个面向公众开放的视频生成产品“清影”。如今，清影迎来了重要升级：10s 时长、4k、60 帧超高清画质、任意尺寸，自带音效，以及更好的人体动作和物理世界模拟。

具体体现为：

模型能力全面提升：在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强。
4K超高清分辨率：支持生成 10s、4K、60 帧超高清视频，视觉体验拉到极致，动态画面更加流畅。
可变比例：支持任意比例的图像生成视频，超宽画幅也能轻松 Hold 住，从而适应不同的播放需求。
多通道生成能力：同一指令/图片可以一次性生成 4 个视频。
带声效的AI视频：新清影可以生成与画面匹配的音效了。音效功能将很快在本月上线公测。

此次新清影升级，基于 CogVideoX 模型的最新技术进展和我们最新推出的音效模型 CogSound。

在这篇博客中，我们将主要介绍 CogVideoX 的最新技术和音效模型 CogSound 的技术概况。

CogVideoX：模型进一步升级

CogVideoX 是我们在视频生成领域的最新成果，在内容连贯性、可控性和训练效率等方面实现了多项创新。下图为 CogVideoX 的模型架构：

图｜CogVideoX 架构

众所周知，数据是大模型训练的关键，但相当一部分视频数据的分布噪声很大，并不适用于视频生成模型的训练。这些问题包括（1）经人工编辑的视频可能扭曲真实动态信息，（2）因相机抖动和设备不达标等拍摄问题导致的视频质量大幅下降。除了视频的内在质量，视频数据对模型训练的支持程度也至关重要。我们将动态信息最少或动态方面缺乏连通性的视频看作是“是有害的”。为此，我们专门构建了一个自动化的数据筛选框架，来过滤不良数据。

针对内容连贯性问题，我们自研了一个高效的三维变分自编码器结构（3D VAE），将原视频空间压缩至 2% 大小，大大减少了视频扩散生成模型的训练成本和难度。我们将因果三维卷积（Causal 3D convolution）作为主要模型组件，移除了自编码器中常用的注意力模块，使得模型具备了不同分辨率迁移使用的能力。同时，在时间维度上因果卷积的形式，也使得模型具备了视频编解码从前向后的序列独立性，便于通过微调向更高帧率和更长时间泛化。在工程部署方面，我们基于时间维度上的序列并行（Temporal Sequential Parallel）对变分自编码器做了微调和部署，使其能够在更小的显存占用下支持极高帧数视频的编解码。

图｜3D VAE 结构由一个编码器、一个解码器和一个潜空间 regularizer 组成，实现了从像素到潜空间的 8×8×4 倍的压缩（a）。时间因果卷积的上下文并行实现（b）。

为解决大多现有视频数据缺乏对应描述性文本或描述质量低下的问题，我们自研了一个端到端的专门用于标注视频数据的视频理解模型 CogVLM2-caption，为海量视频数据生成详细的、贴合内容的描述，进而增强模型的文本理解和指令遵循能力，更好地理解超长、复杂的 prompt，生成的视频也更符合用户的输入。

图｜我们使用 Panda70M 模型生成短视频字幕，提取帧来创建密集图像字幕，并使用 GPT-4 将其汇总为最终的视频字幕。为了加快这一过程，我们使用 GPT-4 对 Llama 2 模型进行了微调。

我们也自研了一个融合文本、时间、空间三个维度的 transformer 架构。该架构摒弃了传统的 cross attention 模块，在输入阶段就将文本 embedding 和视频 embedding concat 起来，以便更充分地进行两种模态的交互。我们通过 expert adaptive layernorm 弥补了文本和视频两个模态在特征空间上的差异，从而更有效地利用扩散模型中的时间步信息，使得模型能够高效地利用参数，进而更好地将视觉信息与语义信息对齐。

其中，注意力模块采用了 3D 全注意力机制，先前的研究通常使用分离的空间和时间注意力或分块时空注意力，它们需要大量隐式传递视觉信息，大大增加了建模难度，也无法与现有的高效训练框架适配。

在位置编码模块方面，我们设计了 3D RoPE，有效提升了在时间维度上捕捉帧间关系的能力，建立起了视频中的长程依赖。

最后，为了提高训练效率，我们构建了一个扩散模型高效训练框架，通过各种并行计算和极致的时间优化，我们能够快速地训练较长的视频序列；借鉴 NaViT 的做法，我们的模型可以同时训练各种不同分辨率、不同时长的视频，而无需对视频进行裁剪，从而避免了因各种裁剪可能导致的偏差，同时模型也具备了生成任意分辨率视频的能力。

基于过往的研究成果，我们已经验证了 scaling law 在视频生成方面的有效性。在未来，我们将在继续 scale up 数据规模和模型规模的同时，探索更具突破式创新的新型模型架构，进而更高效地压缩视频信息，以及更充分地融合文本和视频内容。

为了支持广大开发者，我们将 CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V 进行了开源（https://github.com/thudm/cogvideo）。

CogSound：为无声视频，增添动人音效

音效模型 CogSound 是我们多模态模型家族的最新成员，能够根据视频自动生成音效、节奏等音乐元素。

基于 GLM-4V 的强大视频理解能力，CogSound 能够准确识别并理解视频背后的语义和情感，并为无声视频添加与之相匹配的音频内容，甚至可以生成更加复杂的音效，如爆炸、水流、乐器、动物叫声、交通工具声等。

CogSound 实现了更高效的音频合成过程、以及音频与视频在语义层面的高度一致性，具有更好的连贯性和平滑过渡。

图｜CogSound 架构

CogSound 的强大音效生成能力主要得益于以下三方面技术：

基于 Unet 的潜空间扩散：高效音频生成

V2A 技术通过采用潜空间扩散模型（Latent Diffusion Model），将音频生成过程从高维的原始空间转移到低维潜空间，并且采用了经过优化的 U-Net 结构，作为扩散模型的核心框架，从而大幅度降低了计算复杂度，同时保持了生成音频的高质量和高效率。这一设计提升了音频合成过程的性能，使其在复杂任务下仍能高效执行。

分块时序对齐交叉注意力：加强音视频特征的关联性

通过引入分块时序对齐交叉注意力（Block-wise Temporal Alignment Cross-attention）机制，优化视频长序列与音频特征之间的特征匹配。V2A 技术通过学习帧级视频特征与音频特征之间的关系，将视频和音频的特征精确连接，强化音频与视频在时序和语义层面的高度一致性，实现精准的音视频映射，确保每一帧画面都能在音符中找到自己的位置，每一个音符也能在视频中精准呼应，音频与视频的语义在同一频率上共振。该机制确保生成的音频与视频内容在语义层面保持高度一致，消除传统方法中可能出现的偏差和失配。

旋转位置编码：提升时序建模精度

V2A 技术在架构中整合了旋转位置编码技术，通过为序列中的每个位置提供唯一标识并捕捉位置间的相对关系，让每个视频帧的位置都拥有独特的“坐标”，在音频生成中有效提升了时序一致性，确保音频序列的连贯性和过渡自然性，尤其在处理长时序任务时，表现出更高的稳定性和准确性，避免音频生成中的“断层”或“错位”。

多模态，通向 AGI 的必由之路

我们认为，真正的智能一定是多模态的。因此，我们希望包括文字、图像、视频、语音和视觉等模态在内的智谱多模态大模型家族，能够进一步提高大模型的应用和工具能力。

智谱是最早布局多模态大模型技术的公司。从2021年开始在多模态文生图、文生视频领域先后研发了CogView（NeurIPS’21）、CogView2（NeurIPS’22）、CogVideo（ICLR’23）、RelayDiffusion（ICLR’24）等。

目前，智谱已经构建了独家、完善、原创的多模态模型矩阵。包括语言模型、图像生成和理解模型、视频生成和理解模型和 10 月底刚刚发布的端到端情感语音模型 GLM-4-Voice。随着音效模型 CogSound 的加入，多模态大模型家族在声音模态方面实现了人声、音效的多链路布局，健全了智谱基于图像、视频和声音的多模态模型矩阵。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.