单卡9.4 FPS极速视频生成！MIT携手Adobe推出快速因果生成器CausVid|adobe|causvid

单卡9.4 FPS极速视频生成！MIT携手Adobe推出快速因果生成器CausVid

2024-12-11 08:31:59　来源: 带你学AI

广东举报

分享至

当前的视频扩散模型生成效果非常出色，但在交互式应用中却存在一个大问题：它们依赖双向注意力机制。这意味着生成单帧视频时，模型需要处理整个序列，包括未来的帧，导致效率非常低下。为了解决这个问题，MIT-Adobe对预训练的双向扩散变换器进行了改造，让它变成一个因果变换器，可以“即用即生成”视频帧。（链接在文章底部，后期会开源）

为了进一步降低延迟，把“分布匹配蒸馏”（DMD）技术扩展到了视频领域，将原来需要50步的扩散模型压缩成仅需4步的生成器。模型可以以 9.4 FPS 的速度在单张 GPU 上流畅地生成高质量视频。此外，CausVid方法还支持流媒体视频到视频的转换、图像到视频的生成，以及动态提示的零样本生成。

01 技术原理

传统的双向扩散模型（下图（上））虽然输出质量很高，但生成速度太慢，生成一个128帧的视频需要整整219秒。而且，用户必须等到整个视频生成完成后，才能看到结果。相比之下，CausVid方法（下图（下））通过将双向扩散模型“压缩”成一个只需几步的因果生成器，大幅减少了计算开销。CausVid初始延迟仅为1.3秒，随后以大约9.4帧/秒的速度连续生成视频帧，像流媒体一样实时输出。这让视频内容的创作更加高效和互动！

为了进一步降低延迟，将分布匹配蒸馏（DMD）扩展到视频上，将50步的扩散模型蒸馏成一个4步的生成器。为了确保蒸馏的稳定性和高质量，引入了一种基于教师模型ODE轨迹的学生初始化方案，并采用了非对称蒸馏策略，即使用双向教师来监督一个因果学生模型。这种方法有效地减轻了自回归生成中的误差累积问题，使得即使只在短视频片段上进行训练，也能够合成时长较长的视频。

CausVid模型在 VBench-Long 数据集上取得了总分 82.85，超越了所有已发布的方法，同时还能在单张 GPU 上以 9.4 帧/秒的速度实现快速流式推理，这在业界独一无二。雷达图清晰展示了CausVid方法在多个关键指标上的全面优势，包括动态表现、画面美感、图像质量、物体类别、多物体场景以及人类动作等方面。

02 演示结果

文字转10秒短视频生成：CausVid模型从文本生成高质量视频，初始延迟仅为 1.3 秒，之后在单个 GPU 上以大约 9.4 FPS 的流式传输方式连续生成帧。

文字转60秒长视频生成：虽然生成器是在 10 秒视频上进行训练的，但其自回归性质使其能够使用滑动窗口推理生成无限长度的视频。

零样本图像到视频生成：由于模型的自回归性质，本质上支持零样本（文本条件）图像到视频的生成。

https://causvid.github.io/causvid_paper.pdf

欢迎交流～，带你学习AI，了解AI

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.