网易首页 > 网易号 > 正文 申请入驻

清华特奖得主团队视频生成AI一夜刷屏!100%开源+61页技术报告

0
分享至

梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAI

新国产AI视频生成模型横空出世,一夜间全网刷屏。

  • Magi-1,首个实现顶级画质输出的自回归视频生成模型模型权重、代码100%开源

整整61页的技术报告中还详细介绍了创新的注意力改进和推理基础设施设计,给人一种视频版DeepSeek的感觉。

Magi-1将视频生成卷到了新高度,大片级品质直接锁住大家的眼球,请看VCR:

其主打能力,一是无限长度扩展,实现跨时间的无缝连贯叙事:

二是能将生成时长控制精确到每一“秒”:

另外,Magi-1对物理规律也有更深度的理解,Physics-IQ基准测试56.02%,大幅领先一众顶流。

现在看这张图,Sora的时代是真的过去了。

这匹“黑马”来自中国团队Sand.ai,中文名听着有点萌叫三呆科技,实力却不容小觑。

创始人曹越,清华特奖得主、光年之外联合创始人。

目前大伙儿可在官网免费试玩Magi-1。GitHub更是一晚过后狂揽500+Star。

此次开源了从24B到4.5B参数的一系列模型,最低配置一块4090就能跑。

网友们激动转发测试,评价也是相当高,看一下这个feel:

  • 这绝对是令人惊叹的工作。将自回归扩散应用于视频领域不仅是研究上的一大步,更是为现实世界的创意领域开辟了新可能。Magi-1在生成质量和精度上树立了新标杆。
  • 开源特性+令人瞩目的基准测试表现=游戏规则改变者。

无限长度扩展,控制精确到每“秒”

还有更多官方效果展示,先来欣赏一波~

比如漂在水面上的猫,水面自然晃动,波光粼粼:

抽着雪茄的海盗船长,颇有大

片的感jio:

光影等细节满满:

网友们也都陆陆续续晒出了自己的实测效果:

  • 画质超清晰,VR头显上的细微反光以及狗的胡须和毛发细节都栩栩如生。

还有网友生成了正在跳舞的小动物,belike:

量子位自然不能错过,第一时间上手实测了一波。

玩法上,打开Magi-1,主打图生成视频,且是以一个“项目”为单位:

上传好图片之后,Magi-1像一张画布一样,呈现节点式的交互界面,点击图片侧边加号按钮就能创建一个“视频块”。

开始设置prompt,支持精确调整时长,一次最长10s,也可设置Variations一次性生成多个视频:

稍等片刻,一只活蹦乱跳的吉卜力小狗就生成好了。

我们第一次尝试就得到了下面酱婶儿的效果,小狗的动作姿态整体比较符合物理规律,没有离谱的扭曲以及突然出现的第五条腿(doge)。

视频左边还有自动改写增强后的prompt。

接着,对这段视频进行扩展,小狗摇头晃脑活蹦乱跳在表达什么呢?

原来是在讲述它今天在河里游泳玩耍的事情。

把这一个个镜头“组装”起来,分分钟就能打造出一部连贯的叙事短片。

另外Magi-1中还有“资产管理”板块,可基于生成的视频再创建一个新项目,进行二次加工创作。

完整模型架构、推理基础设施公开

Magi-1公布的技术论文足足有61页之多。

Magi-1整体架构基于Diffusion Transformer,采用Flow-Matching作为训练目标。

训练分为多阶段,第一阶段固定分辨率(256×256,16 帧),第二阶段引入可变分辨率和图像-视频联合训练,并在推理时使用滑动窗口方法来支持任意分辨率。

其最大的特点是不把视频当成一个整体去生成,而是通过自回归去噪方式预测固定长度的视频片段(chunk),每个片段固定为24帧。

当前一个片段达到一定去噪水平后,便开始生成下一个片段。这种流水线设计最多可同时处理四个片段,提高视频生成的效率。

同时,这种约束早期片段噪声水平低于后期片段的设计,确保了视频前后的因果性,避免片段的信息影响过去,导致时间一致性差(如物体突然消失或运动轨迹断裂)

配合这种分片段自回归设计,Magi-1在Diffusion Transformer的基础上融入了多项改进。

光是在注意力机制上就有多项创新。

Block-Causal Attention

  • 片段内全注意力:每个视频片段内的所有帧间进行全注意力计算,捕捉片段内短时序依赖(如单片段内物体的快速运动)。
  • 片段间因果注意力:仅允许当前片段关注之前已生成的片段,禁止未来片段信息反向流入,确保因果性。
  • 3D RoPE 位置编码:结合空间和时间位置信息,学习可训练的基频参数,提升长时序建模能力。

Parallel Attention Block

传统DiT架构中自注意力(处理视觉特征)和交叉注意力(处理文本条件)串行执行,需两次TP通信(Tensor Parallel);并行块将两者的查询投影Q共享,仅需一次通信,减少GPU间同步开销

QK-NormGQA

QK-Norm是源自视觉Transformer的技术,通过归一化查询(Q)和键(K)的范数,稳定注意力权重计算,避免梯度爆炸/消失。Magi-1将其扩展到时空注意力和交叉注意力模块,提升训练稳定性,尤其在240亿参数规模下效果显著。

接下来的GQA、FFN 中的三明治归一化、SwiGLU大家就很熟悉了。

到了具体软硬协同层面,论文还提出了可扩展分布式注意力机制MagiAttention。

Flex-Flash-Attention

基于FlashAttention-3,将不规则注意力掩码分解为多个 AttnSlice,使各种常用注意力掩码可表示为多个AttnSlice的组合,从而支持灵活的注意力掩码类型。利用英伟达Hopper 架构的TMA 特征,引入Slice级并行和原子操作,在支持灵活掩码的同时,保持与FlashAttention-3相当的计算性能。

计算负载均衡

将整个掩码沿查询维度均匀划分为多个dispatch chunks,并分配到不同的上下文并行(CP)对应的bucket中,使每个bucket包含相同数量的dispatch chunks,避免因负载不均衡导致的计算资源闲置。

零冗余通信原语

针对现有环形点对点通信原语存在冗余通信的问题,引入group-cast和 group-reduce原语。根据注意力掩码的需求,精准地发送和收集关键值(KV)及梯度(dKV)信息,避免不必要的通信,实现零冗余通信。通过使用all-to-all-v原语进行原型实现,并借助内核融合减少预处理和后处理开销。

自适应多阶段重叠

为实现真正的线性扩展,引入多阶段计算-通信重叠策略,将每个rank的远程 KV/dKV 通信划分为多个阶段。

在正向传递中,先启动group-cast内核预取下一阶段的远程KV,然后异步执行Flex-Flash-Attention(FFA)内核进行部分注意力计算;

在反向传递中,除了预取 KV,还在启动 FFA 内核前,通过group-reduce内核减少上一阶段的dKV。通过引入可调节超参数num_stages,根据不同训练设置、微批次以及正向和反向传递的计算-通信比率,自适应地控制重叠粒度。

所有这些改动作为一个完整的MagiAttention项目,代码也在GitHub上开源。

推理基础设施方面,主要针对两种场景进行设计:实时流式视频生成和在 RTX 4090 GPU 上的经济高效部署,以满足不同应用需求。

在实时流式视频生成上采用异构服务架构,将T5(提取文本Embedding,为视频生成提供语义信息)和Magi-1部署在高性能GPU 上,VAE部分部署在经济高效的硬件上,实现Magi-1推理和VAE解码并发执行,并通过分析性能数据来分配资源,提升整体吞吐量。

针对RTX4090部署场景,借鉴语言模型将KV缓存存储在CPU内存中,根据需要动态加载回GPU。针对RTX4090的PCIe总线带宽限制,提出Context Shuffle Overlap(CSO)技术,优化通信与计算的重叠,提升计算资源利用率,使4.5B参数模型在单块RTX 4090 GPU上部署时,峰值内存占用控制在21.94GB;24B模型在8块RTX4090 GPU上部署时,峰值内存占用控制在19.29GB,且最大MFU(浮点运算数利用率)达到 58% 。

最后,评估结果分为内部人工评估、自动评估(VBench-I2V基准)、物理理解能力评估三部分。

人类评估中Magi-1与海螺、腾讯混元、通义万相Wan2.1相比,尤其是在指令跟随和运动质量方面有优势,与闭源模型可灵1.6在视觉质量上还有一些差距。

在VBench-I2V基准上:MAGI-1(2×解码器)以总分89.28排名第一,尤其在动态程度(Dynamic Degree)上有优势,平衡运动幅度与图像质量。

曹越执掌的团队,已完成三轮融资

Sand.AI创始人曹越,博士毕业于清华大学软件学院,2018年获清华大学特等奖学金。

读博期间在微软MSRA实习,2021年以Swin Transformer共同一作身份获ICCV最佳论文“马尔奖”。

2022年,曹越与王慧文等共同创办光年之外,后加入智源研究院领导多模态与视觉研究中心。

2023年曹越创办Sand.ai,在很长一段时间保持隐身模式。

2024年7月,其投资方今日资本“风投女王”徐新的一条传闻把Sand.ai炸出水面。

当时有人发帖称“今日资本撤离一级市场”,徐新发朋友圈辟谣时透露,2024年5月今日资本领投了Sand.AI的早期融资。

到现在据了解,Sand.AI已完成三轮融资,主要参与方包括今日资本、经纬创投等。

创新工厂创始人李开复刚刚也发帖推荐了Sand.AI与Magi-1,称“很高兴看到继 DeepSeek 之后,又有一家AI公司开发出世界一流的开源模型”。

目前Sand.ai具体融资金额,团队规模等尚未可知,不过从MAGI-1论文附带的贡献者名单看,核心技术团队至少有36人。

其中很多成员与曹越在工作经历上有交集。

如创始成员方羽新,有微软MSRA、智源研究院实习经历,也是光年之外创始成员之一。

两人在智源研究院期间在大规模视觉表征预训练模型EVA系列上多次合作。

核心贡献者李凌志,也有MSRA实习经历,曾担任小红书算法主管和阿里巴巴集团达摩院算法专家。

多位团队成员在个人主页等处介绍自己现在为一家隐形初创公司工作。

现在答案已经明了,他们在Sand AI,做AI视频生成界的DeepSeek。

在线试玩:
https://sand.ai/


[1] https://github.com/SandAI-org/MAGI-1
[2]https://static.magi.world/static/files/MAGI_1.pdf
[3]https://x.com/kaifulee/status/1914528611429966315

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
联想63美元掌机预装数千盗版游戏,任天堂会出手吗?

联想63美元掌机预装数千盗版游戏,任天堂会出手吗?

赛博兰博
2026-05-22 03:11:44
汪小菲飞抵台北,单独请女儿吃法餐,12岁小玥儿手指纤细很像大S

汪小菲飞抵台北,单独请女儿吃法餐,12岁小玥儿手指纤细很像大S

娱乐团长
2026-05-24 13:25:53
女子给男主播刷4万礼物,私下见面想亲热被拒绝,气得要求退钱

女子给男主播刷4万礼物,私下见面想亲热被拒绝,气得要求退钱

新游戏大妹子
2026-04-27 10:57:55
汪峰罕见集齐四娃!小苹果神似葛荟婕,二女儿首露面 幼子脸打码

汪峰罕见集齐四娃!小苹果神似葛荟婕,二女儿首露面 幼子脸打码

小鋭有话说
2026-05-25 01:08:53
称呼不一般!黎家盈回忆:杨利伟对她说的一句话让自己流泪了

称呼不一般!黎家盈回忆:杨利伟对她说的一句话让自己流泪了

阿龙聊军事
2026-05-24 09:44:43
两名华人涉嫌跨国电商“改价套利”被捕 Target损失逾$460万

两名华人涉嫌跨国电商“改价套利”被捕 Target损失逾$460万

华人生活网
2026-05-24 04:05:16
怀疑丈夫和自己闺蜜有暧昧关系 吉林一女子殴打正在住院的闺蜜头部 致其昏迷20多天后死亡

怀疑丈夫和自己闺蜜有暧昧关系 吉林一女子殴打正在住院的闺蜜头部 致其昏迷20多天后死亡

闪电新闻
2026-05-23 20:39:14
塔利班把女孩沉默当同意,童婚合法化后阿富汗女童更难逃

塔利班把女孩沉默当同意,童婚合法化后阿富汗女童更难逃

桂系007
2026-05-20 23:15:34
每吃一次,血管就堵一截?医生:这5种水果是脑梗“加速器”

每吃一次,血管就堵一截?医生:这5种水果是脑梗“加速器”

荆医生科普
2026-04-02 17:35:43
无才无德、装疯卖傻、一肚子草包,究竟是谁捧红了这些跳梁小丑?

无才无德、装疯卖傻、一肚子草包,究竟是谁捧红了这些跳梁小丑?

傲傲讲历史
2026-05-25 02:42:02
瓜帅:未来几年曼城球迷无论在哪见到我,请来拥抱我,我需要

瓜帅:未来几年曼城球迷无论在哪见到我,请来拥抱我,我需要

懂球帝
2026-05-25 02:30:17
74年李先念找到李德生,沉默半晌后说:要你辞职,是毛主席的建议

74年李先念找到李德生,沉默半晌后说:要你辞职,是毛主席的建议

鹤羽说个事
2026-03-27 22:49:42
郭正亮:毛选第四卷令我惊讶,毛主席的判断几乎跟后来的历史吻合

郭正亮:毛选第四卷令我惊讶,毛主席的判断几乎跟后来的历史吻合

浩渺青史
2026-05-24 17:21:27
骨瘦如柴、全身涂白、满嘴假牙,内娱的畸形审美,啥时候是尽头

骨瘦如柴、全身涂白、满嘴假牙,内娱的畸形审美,啥时候是尽头

观史搜寻着
2026-05-24 05:31:38
27岁小伙工地做临时工,与老板娘发生了一段往事,让他至今无法忘怀

27岁小伙工地做临时工,与老板娘发生了一段往事,让他至今无法忘怀

红豆讲堂
2025-04-30 20:20:06
太痛了!广东大伯患上带状疱疹,自制“衣物隔离架”,医生:很机智!

太痛了!广东大伯患上带状疱疹,自制“衣物隔离架”,医生:很机智!

广东活动
2026-05-22 12:15:33
5月24日金价跌疯!周大福/老凤祥/六福,金条金饰最新报价出炉

5月24日金价跌疯!周大福/老凤祥/六福,金条金饰最新报价出炉

时尚的弄潮
2026-05-24 15:33:39
袁咏仪戳破天王嫂体面!9年生3胎,方媛还融不进郭富城朋友圈

袁咏仪戳破天王嫂体面!9年生3胎,方媛还融不进郭富城朋友圈

喜欢历史的阿繁
2026-05-25 01:10:06
上海阿姨:孙子已经是美国籍了,没本事的人才留在上海混日子

上海阿姨:孙子已经是美国籍了,没本事的人才留在上海混日子

麦子情感故事
2026-05-24 19:31:17
《主角》6位美女颜值排名,王晓晨第5,王丽坤第4,第1没有悬念

《主角》6位美女颜值排名,王晓晨第5,王丽坤第4,第1没有悬念

娱君坠星河
2026-05-23 16:30:09
2026-05-25 03:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
12680文章数 176470关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

什么情况下,本轮AI大行情会结束?

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

时尚
家居
游戏
教育
亲子

《低智商犯罪》一半惊喜,一半可惜

家居要闻

低调传承 温润沉静

《霍格沃茨之遗》续作或将公布?知名爆料人暗示

教育要闻

养女儿一定要懂的道理!

亲子要闻

六一儿童节,用贴纸给女儿化妆,和化妆师的手法一样!

无障碍浏览 进入关怀版