网易首页 > 网易号 > 正文 申请入驻

AI一次性生成63秒《猫和老鼠》动画片,无编辑无拼接剧情100%全新

0
分享至

AI 也能生成逼真的《猫和老鼠》动画片了!长度可以达到 63 秒,剧情也可以重新生成。

当地时间 4 月 8 日,来自英伟达、美国斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校、得克萨斯大学奥斯汀分校的研究人员,基于测试时训练(TTT,Test-Time Training)生成了多个《猫和老鼠》的动画视频。

他们在预训练的 Transformer 模型中添加了测试时训练层并对其进行微调,借此生成了具有强时间一致性的《猫和老鼠》一分钟动画片。

研究人员表示,每个视频都是由模型一次性直接生成的,没有经过编辑、拼接或后处理,每个故事也都是全新创作的。

那么,上述视频到底是怎么生成的?研究人员表示,如今的 Transformer 模型在生成一分钟视频方面仍然面临挑战,因为自注意力层在处理长上下文时效率低下。诸如 Mamba 层之类的替代方案在处理复杂的多场景故事时表现不佳,因为它们的隐藏状态表现力较弱。

为此,他们使用了测试时训练层,其隐藏状态本身可以是神经网络,从而具备更强的表达能力。当在预训练的 Transformer 中加入测试时训练层,使其能够根据文本分镜脚本生成一分钟的视频。

研究中,他们从一个预训练的扩散 Transformer(CogVideo-X 5B)开始,原本其只能以 16 帧每秒的速度生成 3 秒的短片段,或以 8 帧每秒的速度生成 6 秒的短片段。

但是,研究人员添加了从头初始化的测试时训练层,并对该模型进行微调,以便根据文本分镜脚本生成一分钟的视频。

他们将自注意力层限制在 3 秒的片段内,以便将研究成本保持在可控范围内。整个训练过程运行在 256 个英伟达 H100 上,相当于消耗了 50 小时的训练时长。

为了快速进行迭代,研究人员基于约 7 小时的《猫和老鼠》动画片,并辅以人工标注的分镜脚本,整理了一个文本到视频的数据集。

作为概念验证,本次研究中的数据集侧重于复杂、多场景、长镜头且充满动态动作的叙事。而对于视觉和物理真实感方面,此前人们已经取得显著进展,所以本次研究未作重点强调。

从宏观层面来看,本次方法只是在预训练的扩散 Transformer(Diffusion Transformer)上添加了测试时训练层,并在带有文本注释的长视频上进行微调。

他们采用了预先添加测试时训练层、然后再进行微调的方法,这种方法原则上适用于任何主干架构。

研究中,他们选择扩散 Transformer 作为初步演示,因为它是视频生成中最流行的架构。由于在视频上预训练扩散 Transformer 的成本过高,所以研究人员从 CogVideo-X 5B 的预训练检查点开始。

他们将视频设计为包含多个场景,每个场景包含一个或多个 3 秒的片段,并采用 3 秒片段作为文本与视频配对的最小单位,之所以这样做的原因有三个:

第一,原始预训练的 CogVideo-X 的最大生成长度为 3 秒。第二,在《猫和老鼠》的剧集中,大多数场景的时长至少为 3 秒。第三,以 3 秒为一段构建多阶段数据集最为方便。

在推理阶段,研究人员按照以下三种格式中的任何一种,以详细程度递增的顺序来编写长视频的文本提示。

• 格式 1:用 5-8 句话简短概述情节。

• 格式 2:用大约 20 句话详细描述情节,每句话大致对应 3 秒的片段。

• 格式 3:分镜脚本。每一个 3 秒钟的片段都由一段 3 到 5 句话来描述,内容包含背景颜色和镜头移动等细节。一个或多个段落组成的脚本组,会被严格地界定为属于某些场景,并且要使用关键词“<场景开始>”和“< 场景结束 >”。

在微调和推理中,文本分词器的实际输入始终采用格式 3,格式之间的转换由 Claude 3.7 Sonnet 按 1→2→3 的顺序执行。

为了生成时间较长的视频,研究人员针对每个 3 秒的片段都独立使用相同的程序。

具体而言,给定一个包含 n 段落的格式 3 的分镜脚本,首先生成 n 个序列片段,每个片段都包含从相应段落提取的文本标记以及后续的视频标记。

然后,将所有 n 个序列片段连接在一起,从而形成输入序列,这时序列中包含交错排列的文本 tokens 和视频 tokens。

对于 CogVideo-X 来说,它采用自注意力层来针对每段最长 3 秒的视频进行全局序列处理。但是,面对长视频时,其所采用的全局注意力机制会显著降低效率。

为了避免增加自注意力层的上下文长度,研究人员将其处理范围限定在每个 3 秒片段内,使各 n 个序列片段能够独立进行注意力计算。

由于测试时训练层能够高效地处理长上下文序列,因此他们采用全局方式来处理整个输入序列。

遵循大语言模型的标准做法,研究人员将改进架构的上下文长度分为五个阶段,并将其扩展至一分钟。

具体来说,他们先在《猫和老鼠》的 3 秒片段上针对整个预训练模型进行微调。

在此阶段,新的参数特别是测试时训练层和门控机制中的的参数,会被赋予更高的学习率。

接下来,研究人员分别对 9 秒、18 秒、30 秒以及最终的 63 秒的视频进行微调。

为了避免模型在预训练过程中遗忘过多的世界知识,研究人员仅对测试时训练层、门控层和自注意力层进行微调,且在这四个阶段中使用较低的学习率。

在原始视频的选取上,他们选择了从 1940 年至 1948 年间发行的 81 集《猫和老鼠》,每集时长约 5 分钟,所有集数加起来时长约 7 小时。

然后,研究人员在原始视频上运行一个视频超分辨率模型,从而为数据集生成视觉效果更强的视频,这些视频的分辨率均为 720×480。

接着,他们让人工标注员将每个片段分解为场景,然后从每个场景中提取 3 秒长的片段。

接下来,研究人员让人工标注员为每个 3 秒的片段撰写一段详细的描述,然后直接针对这些片段进行微调。

为了创建数据,研究人员将连续的 3 秒片段拼接成 9 秒、18 秒、30 秒和 63 秒的视频,并附上相应的文本注释,所有训练视频的标注均采用上文的格式 3。

对于 GPU 而言,要想高效地实现测试训练层-多层感知器(TTT-MLP,Test-Time Training-Multi-Layer Perceptron),就需要进行特殊设计,以便利用其内存层次结构。

英伟达 GPU 架构中的核心计算单元是流式多处理器(SMs,Streaming Multiprocessors),其功能类比于 CPU 中的单个核心。

GPU 上的所有流式多处理器共享一个相对较慢但容量较大的全局内存(即 HBM,High Bandwidth Memory),然后每个流式多处理器都有一个快速但容量较小的片上内存(即 SMEM,Shared Memory)。

GPU 上 SMEM 与 HBM 之间的频繁数据传输会显著降低整体效率。而 Mamba 和自注意力层通过利用内核融合技术,可以减少这类数据的传输。

其核心思想是将输入和初始状态加载到每个 SMEM 中,完全在片上进行计算,并且只将最终输出写回 HBM。

然而,TTT-MLP 的隐藏状态即双层 MLP 函数 f 的权重矩阵 W(1) 和 W(2),由于体积过大无法存储于单个流式多处理器的共享内存中。

为了减少每个流式多处理器所需的内存,研究人员使用张量并行机制,将 W(1) 和 W(2) 在流式多处理器之间进行分片。

由于大型多层感知器层可以被分片并跨多个 GPU 的高带宽存储器上进行训练,因此研究人员将同样的思路用于多个流式多处理器的共享内存中,将每个流式多处理器视为一个 GPU 的类比。

研究人员利用英伟达 Hopper GPU 架构的分布式共享内存特性,实现了流式多处理器间的全局归约操作,进而显著提升了效率。

作为一种通用原则,如果一个模型架构 f 可以通过标准张量并行机制在 GPU 之间进行分片,那么当 f 用作隐藏状态时,同样的分片策略也可以用于流式多处理器之间。

不过,本次研究的 TTT-MLP 内核受限于寄存器溢出和异步指令的次优排序。未来,通过降低寄存器压力以及开发编译器感知更强的异步操作方案,其执行效率或能得到进一步提升。总的来说,本次方法有望用于生成更长、更复杂视频,也许下一代儿童将能看上由 AI 生成的动画连续剧?目前看来,这一设想并非没有实现的可能。

参考资料:

https://test-time-training.github.io/video-dit/

https://x.com/arankomatsuzaki/status/1909336661743550555

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5月迎来最甜时光的3个生肖:与贵人完美契合,做啥都有人帮手!

5月迎来最甜时光的3个生肖:与贵人完美契合,做啥都有人帮手!

毅谈生肖
2026-05-05 12:14:01
输世界第106!张本智和罕见认错:对不起队友 尽全力为日本队夺冠

输世界第106!张本智和罕见认错:对不起队友 尽全力为日本队夺冠

念洲
2026-05-05 07:22:14
进入船坞维护超4个月,2026年或不能部署,山东舰质量不行?

进入船坞维护超4个月,2026年或不能部署,山东舰质量不行?

胖福的小木屋
2026-05-04 23:13:59
陈翔六点半惹离职潮猜疑!新增多位陌生演员,球球晒合照再起波澜

陈翔六点半惹离职潮猜疑!新增多位陌生演员,球球晒合照再起波澜

裕丰娱间说
2026-05-05 18:06:53
赵一鸣横扫县城,6000家店成山姆平替,利润暴涨500%!

赵一鸣横扫县城,6000家店成山姆平替,利润暴涨500%!

似水流年忘我
2026-04-29 23:48:32
新加坡总理黄循财哭了,没人同情!对中国有多狂,现在就有多狼狈

新加坡总理黄循财哭了,没人同情!对中国有多狂,现在就有多狼狈

世界多元
2026-05-05 06:22:55
禁欲真的好吗?研究表明:禁欲时间越长,排出的精子活动率越低!

禁欲真的好吗?研究表明:禁欲时间越长,排出的精子活动率越低!

黯泉
2026-05-04 14:05:52
1946年,张灵甫拿下两淮,看到缴获的华中野战军军装后,叹气:唉

1946年,张灵甫拿下两淮,看到缴获的华中野战军军装后,叹气:唉

浩渺青史
2026-05-03 17:36:15
辛芷蕾五一节和闺蜜自驾游,骑着10万元的自行车,还撞树手臂流血

辛芷蕾五一节和闺蜜自驾游,骑着10万元的自行车,还撞树手臂流血

一盅情怀
2026-05-03 17:47:09
国防部明确回应!中国19号核动力航母实锤?中美航母差距已反转

国防部明确回应!中国19号核动力航母实锤?中美航母差距已反转

史智文道
2026-05-02 09:32:33
赖清德带着“护身符”飞回了台湾省!美日的反应不出中国大陆所料

赖清德带着“护身符”飞回了台湾省!美日的反应不出中国大陆所料

甜菊汽水
2026-05-05 19:50:14
《给阿嬷的情书》豆瓣评分9.0,网友:今年最动人的国产电影

《给阿嬷的情书》豆瓣评分9.0,网友:今年最动人的国产电影

红星新闻
2026-05-05 14:27:13
经济专家魏文烈,舍弃重庆副市长转投商海,却给国家造成巨大损失

经济专家魏文烈,舍弃重庆副市长转投商海,却给国家造成巨大损失

搜史君
2026-05-05 15:50:07
73年人生谢幕,她于2026年4月28日安详离去

73年人生谢幕,她于2026年4月28日安详离去

阿废冷眼观察所
2026-05-05 11:57:43
超级牛散调仓曝光:刘鑫押中200%牛股,章建平“卖飞”寒武纪少赚34亿,葛卫东减持兆易创新

超级牛散调仓曝光:刘鑫押中200%牛股,章建平“卖飞”寒武纪少赚34亿,葛卫东减持兆易创新

21世纪经济报道
2026-05-05 21:06:29
时尚评论人把"露点"封为最佳配饰

时尚评论人把"露点"封为最佳配饰

娱圈观察员
2026-05-05 19:47:26
大专、野模、知三当三,孙怡浪姐"骚操作"不断难怪王京花看不上她

大专、野模、知三当三,孙怡浪姐"骚操作"不断难怪王京花看不上她

橙星文娱
2026-04-18 16:01:07
广东3消息!胡明轩罕见发声,徐杰伤情更新,全队已抵达北京

广东3消息!胡明轩罕见发声,徐杰伤情更新,全队已抵达北京

多特体育说
2026-05-05 21:40:21
我国有上千万人查血脂!医生直言:验一次血脂,或管数年无碍

我国有上千万人查血脂!医生直言:验一次血脂,或管数年无碍

路医生健康科普
2026-05-05 17:59:14
倒钩助球队绝杀铁人,费利佩已连续2场比赛奉献精彩倒钩进球

倒钩助球队绝杀铁人,费利佩已连续2场比赛奉献精彩倒钩进球

懂球帝
2026-05-05 21:46:09
2026-05-05 23:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16661文章数 514919关注度
往期回顾 全部

科技要闻

传苹果考虑让英特尔、三星代工设备处理器

头条要闻

美军称“布什”号航母正穿越阿拉伯海 搭载60多架战机

头条要闻

美军称“布什”号航母正穿越阿拉伯海 搭载60多架战机

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

内娱真情谊!杨紫为谢娜演唱会送花篮

财经要闻

浏阳烟花往事

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

时尚
教育
艺术
房产
健康

衣服不用准备太多,找到一些实用的单品才最重要,百搭又有性价比

教育要闻

郑州应届女生哭晕!档案用普通快递寄被撕烂,补办竟要小半年?

艺术要闻

有多少人知道,它曾是亚洲第一高楼?

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

干细胞治烧烫伤面临这些“瓶颈”

无障碍浏览 进入关怀版