重磅！世界上最大的开源视频生成模型Mochi 1震撼发布，顶级质量|令牌|非对称|mochi

重磅！世界上最大的开源视频生成模型Mochi 1震撼发布，顶级质量

2024-10-27 11:38:15　来源: 带你学AI

广东举报

分享至

Genmo 宣布开源视频生成模型Mochi1，这是目前世界上最大的开源视频生成模型。 Mochi 1在运动质量上有显著提升，并且对提示的响应非常准确。 Genmo发布了480p的基础模型，高清版本的Mochi 1会在今年晚些时候推出。现在可以在genmo.ai/play上免费试用Mochi 1，也可以在HuggingFace上下载使用。（链接在文章底部）

目前，视频生成模型与现实之间存在巨大差距，尤其是在运动质量和对提示的遵循方面，这两个能力仍然不足。 Mochi 1 开创了开源视频生成的新标准，并且在与顶尖的封闭模型竞争时表现非常出色。具体来说，在480p预览在以下两个方面表现突出：提示遵循：Mochi 1 在文本提示的响应上表现出色，生成的视频能够准确反映用户的指示。运动质量：Mochi 1 能以每秒30帧的速度生成流畅的视频，持续时间可达5.4秒，展现出高度的时间一致性和真实的运动动态。Mochi模拟了如流体动力学、毛发和皮毛模拟等物理现象，并表现出连贯流畅的人类动作，逐渐跨越了“恐怖谷”。

01 技术原理

Mochi 1 代表了开源视频生成的重大进步，采用了一个拥有100亿参数的扩散模型，基于新颖的非对称扩散变换器（Asymmetric Diffusion Transformer，简称AsymmDiT）架构。这个模型是完全从零开始训练的，也是迄今为止开放发布的最大视频生成模型。最重要的是，它的架构简单易于修改。

AsymmDiT在处理用户提示时，可以高效地与压缩视频令牌配合，通过简化文本处理和集中神经网络能力于视觉推理来实现。它采用多模态自注意力机制，能同时关注文本和视觉令牌，并为每种模式学习独立的MLP层，这与Stable Diffusion 3类似。然而，Mochi 1视觉流参数数量几乎是文本流的四倍，具有更大的隐藏维度。为了在自注意力中统一这些模式，Mochi 1使用了非方形的QKV和输出投影层。这种非对称设计降低了推理的内存需求。

许多现代扩散模型使用多个预训练的语言模型来表示用户提示，而Mochi 1则仅用一个T5-XXL语言模型来编码提示。 Mochi 1可以在一个44,520个视频令牌的上下文窗口中进行推理，并使用全3D注意力来定位每个令牌。为了对每个令牌进行定位，Mochi 1将可学习的旋转位置嵌入（RoPE）扩展到三维空间。

为了确保社区能够顺利运行 M ochi 1 模型，效率至关重要。除了Mochi， Genmo 还开源了视频VAE。 VAE可以将视频压缩至原来的128分之一，空间压缩为8x8，时间压缩为6x，生成12通道的潜在空间。

02 实际效果

在研究预览阶段，Mochi 1 仍在不断发展中，目前有一些已知的限制。首次发布的版本支持480p的视频生成。在某些极端运动的边缘情况下，可能会出现轻微的变形和失真。此外，Mochi 1 优化了逼真的风格，因此在生成动画内容时表现不佳。预计社区将会对模型进行微调，以适应不同的美学偏好。

真实的运动遵循物理定律，甚至最微小的细节：

通过将视频与文本提示完美结合，可以对角色、设置和动作进行详细控制：

消除恐怖谷：

https://github.com/genmoai/model
https://www.genmo.ai/play

欢迎交流～，带你学习AI，了解AI

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.