网易首页 > 网易号 > 正文 申请入驻

超越Sora!阿里正式完全开源最新、最强大的视频生成模型 Wan2.1

0
分享至

阿里巴巴通义实验室正式开源了他们最新、最强大的视频生成模型 Wan2.1 系列!

Wan2.1 亮点速览

✨ 复杂运动: 视频动作更流畅自然,复杂场景也能轻松驾驭
物理模拟: 物体交互更真实,视频更具沉浸感
电影质感: 视觉效果更上一层楼,细节更丰富,更具艺术性
✏️ 可控编辑: 编辑能力更强大,创作空间更广阔
✍️ 视觉文字: 中英文动态文字生成,应用场景更丰富
音效音乐: 视听体验一体化,视频极具感染力

Wan2.1 系列模型家族,为不同需求的用户提供了多样化的选择:

Wan2.1-I2V-14B:图像到视频 (I2V) 领域的天花板! 140亿参数,720P高清画质,I2V 性能 SOTA!
Wan2.1-T2V-14B:文本到视频 (T2V) 领域的性能王者! 140亿参数,720P高清画质,T2V 性能 SOTA! 独家支持中英文文字生成!
Wan2.1-T2V-1.3B:消费级显卡的最佳拍档! 13亿参数,480P流畅运行,8GB显存即可畅玩! 性能媲美部分闭源大模型!

阿里还附上了Wan2.1 的技术报告

从技术报告来看 Wan2.1 的突破性进展,主要得益于以下几大创新:

核心创新一: 3D 变分自编码器 (VAE) —— 视频压缩与质量的完美平衡!

Wan2.1 团队创新性地提出了3D 因果 VAE 架构,专为视频生成量身打造! 它巧妙地融合了多种策略,在时空压缩、内存控制和时间因果性 之间找到了最佳平衡点,让 VAE更高效、更易扩展,并与扩散模型 DiT 完美结合!

长视频处理秘诀: 特征缓存机制 (Feature Cache Mechanism): 为了高效处理任意长度的视频,Wan2.1 的 VAE 在因果卷积模块中引入了特征缓存机制。 它将视频帧序列 (1+T 格式) 分割成1 + T/4 个 chunks,每个 chunk 对应一个潜在特征。 模型以chunk-wise 策略处理视频,每次编解码操作只处理对应一个潜在表示的视频 chunk。 每个 chunk 的帧数被限制在最多 4 帧,有效防止了 GPU 内存溢出!

性能飞跃: 速度提升 2.5 倍!实验证明,Wan2.1 的视频 VAE 性能卓越,在视频质量和处理效率上都表现出色。 在相同的硬件环境 (单 A800 GPU) 下,Wan2.1 VAE 的 重建速度比 SOTA 方法 HunYuanVideo 快了 2.5 倍! 在高分辨率下,速度优势将更加明显!

核心创新二: 视频扩散 DiT (Diffusion Transformer) —— 强大生成力的源泉!

Wan2.1 基于主流扩散 Transformer 范式和 Flow Matching 框架构建了视频扩散模型 DiT。 它巧妙地利用了T5 Encoder来编码多语言文本,并通过在每个 Transformer Block 中加入交叉注意力,将文本信息深度融入模型结构。

参数高效优化: 线性层 + SiLU 层 + 共享 MLP: Wan2.1 采用线性层和 SiLU 层处理时间 Embedding,并预测六个调制参数。 关键在于,一个共享的 MLP被所有 Transformer Block 共用,每个 Block 只学习不同的偏差 (biases)。 实验表明,这种方法在参数规模不变的情况下,显著提升了模型性能! 因此,1.3B 和 14B 模型都采用了这种架构

核心创新三: 模型扩展与训练效率优化 —— 更大模型,更快速度

为了训练更大规模的 Wan2.1 模型,并提升训练和推理效率,团队采用了多种并行策略:

训练加速: FSDP + 上下文并行 (CP): 训练时,Wan2.1 使用FSDP (Fully Sharded Data Parallel) 进行模型分片,并结合上下文并行 (CP)。 FSDP group 和 CP group相交而非嵌套。 在 FSDP 中,数据并行 (DP) size 等于 FSDP size 除以 CP size。 在满足内存和单 batch 延迟要求后,使用 DP 进行扩展

推理加速: 上下文并行 (CP): 推理时,为了减少单视频生成延迟,Wan2.1 选择上下文并行 (CP) 进行分布式加速。 对于 14B 等大型模型,模型分片 (FSDP)也是必需的。 考虑到视频序列通常较长,FSDP 比张量并行 (TP) 通信开销更小,并允许计算与通信重叠

并行策略细节: 2D 上下文并行: 训练和推理都采用相同的 2D 上下文并行策略: 机器间 (external layer) 使用 RingAttention,机器内 (intra-machine) 使用 Ulysses。 实验表明,在 Wan 14B 大模型上,使用 2D CP 和 FSDP 并行策略,DiT 实现了 近乎线性的加速!

核心创新四: Image-to-Video (I2V) —— 图像驱动,精准可控!

Wan2.1 在 Image-to-Video (I2V) 任务上也表现出色,实现了更强的可控性。 其 I2V 的关键技术包括:

条件图像引导: 将 条件图像作为视频的第一帧,并与零填充帧沿时间轴拼接,形成引导帧 (guidance frames)

VAE 压缩条件信息: 使用 3D VAE 将引导帧压缩为 条件潜在表示 (condition latent representation)

二元掩码 (Binary Mask) 控制生成区域: 引入二元掩码,1 表示保留帧,0 表示需要生成的帧。 掩码的空间尺寸与条件潜在表示匹配,时间长度与目标视频相同。 掩码会被重塑为与 VAE 的时间步幅相对应的特定形状

融合机制: 将噪声潜在表示、条件潜在表示和重塑后的掩码沿通道轴拼接,输入到 DiT 模型中

I2V 专属投影层: 由于 I2V DiT 模型的输入通道数比 T2V 模型更多,因此增加了一个 额外的投影层,并用零值初始化。

CLIP 图像编码器 + MLP 全局上下文: 使用 CLIP 图像编码器** 提取条件图像的特征表示。 通过三层 MLP** 将特征投影为全局上下文 (global context),并通过解耦交叉注意力 (decoupled cross-attention)** 注入到 DiT 模型中

海量高质量数据集 —— 模型性能的基石!

为了训练出强大的 Wan2.1 模型,通义实验室构建了一个规模庞大、质量极高的数据集,包含15 亿个视频和 100 亿张图像! 数据来源包括内部版权数据和公开数据

四步数据清洗流程: 为了从海量数据中筛选出高质量、多样化的数据,团队设计了四步数据清洗流程,从基本维度、视觉质量和运动质量等方面对数据进行严格筛选,确保训练数据的纯净度和有效性。 (具体四步流程细节,期待官方技术报告的详细解读!)

AI圈现在太卷了,阿里这次开源很有诚意,但是感觉阿里现在需要一个拳头产品来破圈了,DeepSeek的光环太耀眼了

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
演员白羽汐官宣与父母断绝关系!虐待长达20年,饭里拌血多次自残

演员白羽汐官宣与父母断绝关系!虐待长达20年,饭里拌血多次自残

一盅情怀
2026-05-25 15:37:14
国米确定29年世俱杯参赛资格,欧冠积分反映双线作战重要性

国米确定29年世俱杯参赛资格,欧冠积分反映双线作战重要性

绿茵情报局
2026-05-26 17:46:55
国民党议员提醒卢秀燕:世界局势已翻转,要审慎面对两岸关系

国民党议员提醒卢秀燕:世界局势已翻转,要审慎面对两岸关系

海峡导报社
2026-05-25 15:33:04
38岁已婚女与37岁情人,在石凳子上发生关系,温存后被残忍杀害

38岁已婚女与37岁情人,在石凳子上发生关系,温存后被残忍杀害

胖胖侃咖
2024-06-08 08:00:08
Switch 2最大游戏来了:102.5GB的《FF7重生》,你的存储卡还好吗?

Switch 2最大游戏来了:102.5GB的《FF7重生》,你的存储卡还好吗?

菜但瘾大第一名
2026-05-26 17:03:13
【完整版】米切尔:詹姆斯来不来跟我无关 我和哈登都想登上巅峰!

【完整版】米切尔:詹姆斯来不来跟我无关 我和哈登都想登上巅峰!

天光破云来
2026-05-26 13:06:36
窦靖童:母亲钱多到用不完,但穷苦潦倒的爸爸,是我现在最大心病

窦靖童:母亲钱多到用不完,但穷苦潦倒的爸爸,是我现在最大心病

铁锤妹妹是只猫
2026-05-26 03:29:13
马斯克和范冰冰什么关系?偷税8亿的范冰冰,如今在国外重回巅峰

马斯克和范冰冰什么关系?偷税8亿的范冰冰,如今在国外重回巅峰

追风小狗
2024-11-12 21:52:56
张尧学院士称号被撤销

张尧学院士称号被撤销

新京报
2026-05-25 22:13:36
罗素对幸福的定义,领先我们100年!

罗素对幸福的定义,领先我们100年!

听哲学
2026-05-26 13:36:20
海底捞宣布:带狗狗吃火锅,不接待了!“宠物友好”边界在哪?多地已调整

海底捞宣布:带狗狗吃火锅,不接待了!“宠物友好”边界在哪?多地已调整

每日经济新闻
2026-05-26 18:36:21
【深度】每年贷款到期多少万亿?

【深度】每年贷款到期多少万亿?

21世纪经济报道
2026-05-26 15:00:25
江西继子被后妈冷待10年,考上清华办升学宴,他拿出鉴定后妈呆住

江西继子被后妈冷待10年,考上清华办升学宴,他拿出鉴定后妈呆住

张道陵秘话
2025-05-15 19:50:15
父母吵了一辈子架,父亲没低过头,母亲走后,他每天都度日如年

父母吵了一辈子架,父亲没低过头,母亲走后,他每天都度日如年

人间百态大全
2026-05-25 06:40:03
骑士阵容大清洗在即!阿特金森亲口承认,米切尔哈登表态愿留队

骑士阵容大清洗在即!阿特金森亲口承认,米切尔哈登表态愿留队

奕辰说球
2026-05-26 17:08:50
阿斯:5月26日后穆里尼奥与本菲卡的解约金将升至1500万欧

阿斯:5月26日后穆里尼奥与本菲卡的解约金将升至1500万欧

懂球帝
2026-05-26 02:47:01
老山十年,35万中国军人轮战。越南将军:中国练兵,我们却是送死

老山十年,35万中国军人轮战。越南将军:中国练兵,我们却是送死

鉴史录
2026-05-25 11:59:54
抗美援朝的这些“秘密”,我劝你最好别知道真相

抗美援朝的这些“秘密”,我劝你最好别知道真相

浪子说
2026-05-26 00:40:03
中方通告全球,对菲律宾发布66号公告:马科斯知道,中国动真格了

中方通告全球,对菲律宾发布66号公告:马科斯知道,中国动真格了

阿库财经
2026-05-26 09:09:27
惊天反转,乌克兰战略彻底转向,要对俄罗斯全面去军事化

惊天反转,乌克兰战略彻底转向,要对俄罗斯全面去军事化

始于初见见
2026-05-24 23:23:34
2026-05-26 19:20:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1040文章数 396关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

25岁海归男恋上32岁离异女 因88.8万彩礼闹掰追讨12万

头条要闻

25岁海归男恋上32岁离异女 因88.8万彩礼闹掰追讨12万

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

游戏
教育
时尚
家居
本地

5月版号来了!PS5霓虹深渊2、恐龙快打起源等

教育要闻

工科三巨头:电子信息、计算机、电气,普通家庭到底怎么选才不亏

全网刷屏,华语乐坛“嫡长女”终于来了!

家居要闻

生与命相依 旧公寓改造

本地新闻

用云锦的方式,打开江苏南京

无障碍浏览 进入关怀版