AI视频开源霸主：全球首个开源Sora模型|ai|编码器|预训练

AI视频开源霸主：全球首个开源Sora模型

2024-06-20 22:06:01　来源: 带你学AI

广东举报

分享至

Open-Sora 并非是 Open AI 发布的 Sora 开源版，而是由 Colossal-AI 组织发起的开源项目。该项目旨在高效地制作高质量的视频内容，并开放模型、工具和内容给所有人使用。

国产Sora率先于OpenAI推出，给开源社区带来了巨大震撼：全权重代码开源！只需16秒即可生成720p高清画质的视频，人物渲染极为逼真，电影级变焦效果令人惊叹。与此同时，美国的独角兽公司基于之前的权重，打造了一个数字宇宙，让乐高迷们兴奋不已。潞晨Open-Sora团队在720p高清文生视频质量和生成时长方面取得了突破性进展。

全新升级的Open-Sora 1.2不仅能够无缝生成各种风格的高质量短片，更令人惊喜的是，团队再次选择将全部内容开源，为开源社区带来了更多震撼。

该模型采用了流行的 Diffusion Transformer (DiT) 架构。作者团队以使用 DiT 架构的高质量开源文本生成图像模型 PixArt-α 为基础，加入时间注意力层，将其扩展到视频数据。具体来说，整个架构包括预训练的 VAE、文本编码器和利用空间-时间注意力机制的 STDiT（Spatial Temporal Diffusion Transformer）模型。

STDiT 的每层结构如图所示，采用串行方式在二维空间注意力模块上叠加一维时间注意力模块，以建模时序关系。时间注意力模块之后，交叉注意力模块用于对齐文本语义。相比全注意力机制，这种结构大大降低了训练和推理的开销。与同样使用空间-时间注意力机制的 Latte 模型相比，STDiT 更好地利用了预训练的图像 DiT 权重，从而在视频数据上继续训练。

在训练阶段，首先使用预训练的变分自编码器（VAE）对视频数据进行压缩，然后在压缩后的潜在空间中，与文本嵌入一起训练 STDiT 扩散模型。在推理阶段，从 VAE 的潜在空间中随机采样高斯噪声，并与提示词嵌入一起输入 STDiT，得到去噪后的特征，最后通过 VAE 解码器解码生成视频。

他们提出了一种掩码策略来支持图像和视频的条件化处理。通过设置不同的掩码，可以支持各种生成任务，包括：图生视频，循环视频，视频延展，视频自回归生成，视频衔接，视频编辑，插帧等。

他们认识到数据的数量和质量对打造高效能模型至关重要，因此专注于扩充和优化数据集。他们建立了一套自动化数据处理流程，遵循奇异值分解（SVD）原则，涵盖场景分割、字幕处理、多样化评分与筛选，并设立了完善的数据集管理系统和规范。

作者团队还提供了 Colossal-AI 加速系统，以提高 Sora 的训练效率。通过算子优化和混合并行等高效训练策略，在处理64帧、512x512分辨率视频的训练中，实现了1.55倍的加速效果。同时，得益于 Colossal-AI 的异构内存管理系统，单台服务器（8*H800）可以无障碍地进行1分钟1080p高清视频的训练任务。

安装部署

抱抱脸在线体验

https://huggingface.co/spaces/hpcai-tech/open-sora

对于研究视频生成和内容创作的研究人员和开发者来说，Open-Sora 是一个宝贵的资源。它不仅提供了模型的实现，还包含了运行和测试模型所需的所有工具和指令。

感谢关注～，带你学习AI，了解AI

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.