网易首页 > 网易号 > 正文 申请入驻

多重可控插帧视频生成编辑,Adobe大一统模型做到了,效果惊艳

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文一作 Maham Tanveer 是 Simon Fraser University 的在读博士生,主要研究方向为艺术视觉生成和创作,此前在 ICCV 发表过艺术字体的生成工作。师从 Hao (Richard) Zhang, IEEE Fellow, Distinguished Professor, 并担任 SIGGRAPH 2025 Paper Chair. 本文尾作 Nanxuan (Cherry) Zhao 在 Adobe Research 担任 Research Scientist, 研究方向为多模态可控生成和编辑,有丰富的交叉方向研究经历(图形学 + 图像 + 人机交互),致力于开发可以让用户更高效进行设计创作的算法和工具。

继 Firefly 视频大模型公布后,Adobe 的研究者在如何更好的控制视频的生成和编辑进行了更深入的研究。近日,Adobe 提出了一个统一模型,除了传统的根据图片生成动画的功能(image animation)外,同时支持各种模态的控制,包括关键帧 (keyframes)、运动轨迹 (sparse trajectory)、掩码(mask)、引导像素(guiding pixels)、文本等。

论文中的 demo 让人眼前一亮,下面一起来看看模型的效果:

1. 运动轨迹 (sparse trajectory)

通过提供简单的轨迹笔画,小熊栩栩如生地动起来了。

2. 掩码(Mask)

MotionBridge 不仅可以控制物体的运动,如图所示,将简单的运动笔画和 mask 结合起来,模型也可以轻松控制镜头视角。

如上所示的 mask 描绘了变动(dynamic)区域,同样 mask 也可以指定不动的(static,红色)区域。描绘出整座桃林围着城堡旋转的景象。

让我们看看同样的图像和运动轨迹,不同 mask 作用下的结果吧。

3. 引导像素 (guiding pixels)

通过将想要的像素区域粘贴在指定帧的指定位置,就可以进行更精准的像素控制。如:船在指定时间 “航行” 到指定位置。

4. 关键帧 (keyframes)

提供关键帧,模型可以在关键帧之间生成中间帧,实现场景的平滑切换。在视频内容创作、动画制作、视频合成等方面都有至关重要的作用,例如长视频合成 / 生成。除了可以生成有别于以往插帧方法更丰富困难的动作,还可以自然和多种模态控制结合。

通过运动轨迹控制,三个小球可以自由在彭罗斯阶梯分别滚动。

加上 mask,操控飞船左右摆动也不在话下,连洒下来的光也追随移动

动静结合,万圣节装扮的动图也可以多种多样:

当采用同一帧作为首位帧,还可以产生循环播放的奇妙效果:

当然,卡通视频也不在话下:

也可以进行视角转化:

不单单可以进行新视频的生成和创作,MotionBridge 还可以改善图生视频或者文生视频的效果,减少歧义并增加视频复杂度和可控性。

除此之外,最常用的文本交互也是支持的。

更多的结果和应用,请参考官方视频。

技术概览

如今,已经有很多模型可以进行图生视频的创作,但生成的结果往往缺少可控性,用户要进行很多次的试错才能得到满意的结果。本文提出了一个名为 MotionBridge 的算法集成了多种可控信号,方便用户生成或者编辑现有的视频。不同于以往工作,MotionBridge 以插帧作为基本框架构建模型。即模型可以通过输入 1~n 张关键帧来生成对应视频,补全帧与帧之间的流畅过度。这个建模方式自然的保留了原本图生视频(image to video)的能力,同时提供了更高的可控性和视频生成质量。

然而,传统的插帧方法还具有一定的局限性,传统方法一般分为运动估计和运动补偿两个步骤,但当输入帧之间的时间或空间间隔增大时,运动估计和补偿的难度呈指数级上升。这是因为要生成逼真的中间帧,就必须填补输入帧之间缺失的信息,而这往往需要合成全新的内容,这对于传统方法而言是一个巨大的挑战。

尽管近年来视频生成模型取得了显著进展,为插帧技术带来了新的可能性,但这些技术仍然存在不足。一方面,许多模型难以生成复杂的大动作,无法满足创作者对于丰富场景变化的需求;另一方面,即使能够生成高质量的视频,却常常缺乏对中间帧细节的精细控制,导致最终生成的视频与创作者的创意设想存在偏差。

因此,为了解决以上的难题,MotionBridge 第一次进行了统一多模态可控插帧视频模型的尝试。

相比于图生视频,可控插帧视频任务的复杂度更高。以运动轨迹控制为例,视频插帧不仅需要服从指定轨迹,还需要丝滑过度并在指定帧结束。即使轨迹不完整,模型也需要根据关键帧推测,往往生成的动作比图生视频更为复杂。而进行多模态控制会进一步提升问题难度。

为了确保模型的生成能力,MotionBridge 的设计基于 DiT 的模型架构并且具有普适性(backbone-agnostic)可以适用于任何形式的 DiT 架构。

技术要点

1. 分类编码控制信号:为了减少控制信号融合时的歧义,MotionBridge 将控制分为内容控制(如掩码和引导像素)和运动控制(如轨迹)两类,通过双分支嵌入器分别计算所需特征,再引导去噪过程。这样的设计能更精准地处理不同类型的控制信息。

2. 运动轨迹表征:用简单且准确的交互表征方式进行视频运动的控制颇具挑战。该模型提出一种生成器,它能从光流合成轨迹,并将其转换为稀疏 RGB 点,作为模型训练时的运动表示,有效提升了运动控制的准确性。

3. 空间内容控制表征:MotionBridge 不仅有传统的轨迹控制,还增加了掩码和引导像素等空间内容控制。用户可以指定想要移动或保持静止的区域,进一步降低生成过程中的歧义,提供更灵活的创作条件。

4. 训练策略:面对多模态控制,常规训练效果不佳。MotionBridge 采用 curriculum learning 策略,先给模型输入更密集、简单的控制,再逐渐过渡到更稀疏、高级的控制,确保模型能平稳学习各种控制方式。

对比实验

1. 与 SOTA 的算法相比,MotionBridge 在没有额外控制的干预下,可以生成更真实高质量的图片细节。并且证实了在不同 DiT 架构下的普适性。

2. 消融研究

a. 对于算法提出的分类编码融合(dual-branch)和 curriculum learning,文中也进行了实验。可以看出其设计对于模型理解轨迹控制输入以及视频生成质量起到了至关重要的作用。

b. 掩码(mask)的作用:定性实验表明在一些情况下,mask 的使用可以让模型更容易感知到主体,并且让用户可以以尽量少的交互达到想要的效果。比如当只有一个运动轨迹时,因为过于稀疏,狐狸的跳起空间有限。当额外将 mask 输入,狐狸的跳跃便更加连贯自然。而用户也不需要像之前的工作一样提供过多的轨迹笔画反复调试。

更多技术细节,对比实验请参考原文:https://motionbridge.github.io/static/motionbridge_paper.pdf

视频:https://motionbridge.github.io/static/motionbridge_1.mp4

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京又要下雨!今夜开始,预计持续时间——

北京又要下雨!今夜开始,预计持续时间——

北京女性
2026-05-19 15:48:57
柳州再发5.2级地震,前世界冠军吴柳芳为家乡捐款两万元,称“刚把欠的40万还完,现在刚刚缓过一口气,这次尽我自己所能”

柳州再发5.2级地震,前世界冠军吴柳芳为家乡捐款两万元,称“刚把欠的40万还完,现在刚刚缓过一口气,这次尽我自己所能”

扬子晚报
2026-05-19 10:51:26
意外?德比斯夺5冠后承认:我和张雪没签合同 效力的是意大利车队

意外?德比斯夺5冠后承认:我和张雪没签合同 效力的是意大利车队

念洲
2026-05-19 06:40:25
访华回国第三天,美方代表就变脸对华出手,彻底撕碎北京会谈伪装

访华回国第三天,美方代表就变脸对华出手,彻底撕碎北京会谈伪装

丁丁鲤史纪
2026-05-18 18:24:17
马刺1-0雷霆晋级概率升51% 文班献‘世界名画’SGA赛后主动担责

马刺1-0雷霆晋级概率升51% 文班献‘世界名画’SGA赛后主动担责

颜小白的篮球梦
2026-05-19 12:47:48
纽约时报刷屏长文:硅谷正在准备迎接「永久底层阶级」!AI时代的四个新阶层,你的孩子将被困在哪一层?

纽约时报刷屏长文:硅谷正在准备迎接「永久底层阶级」!AI时代的四个新阶层,你的孩子将被困在哪一层?

新浪财经
2026-05-19 09:11:27
巨力索具连续跌停!已被证监会立案,股价年内一度暴涨近2倍,杨子家族多年来累计套现超28亿元

巨力索具连续跌停!已被证监会立案,股价年内一度暴涨近2倍,杨子家族多年来累计套现超28亿元

每日经济新闻
2026-05-19 11:37:08
赖清德弹劾案闯关失败!同意票共56张未达门槛,但仍创下纪录

赖清德弹劾案闯关失败!同意票共56张未达门槛,但仍创下纪录

海峡导报社
2026-05-19 12:01:06
97亿营收,60亿赛道:影石创新的天花板困局

97亿营收,60亿赛道:影石创新的天花板困局

锌财经
2026-05-18 16:38:28
54岁清华大学校友李遵白去世,离世当天去放血治疗,还吃了火锅

54岁清华大学校友李遵白去世,离世当天去放血治疗,还吃了火锅

180视角
2026-05-19 09:59:49
连创生涯纪录!卡鲁索31+8三分血战到底 湖媒又嘲笑佩林卡看走眼

连创生涯纪录!卡鲁索31+8三分血战到底 湖媒又嘲笑佩林卡看走眼

醉卧浮生
2026-05-19 11:52:55
怪不得高市早苗不松口,日本在等一个机会:中方主动邀日首相访华

怪不得高市早苗不松口,日本在等一个机会:中方主动邀日首相访华

健身狂人
2026-05-19 13:46:18
心态崩了!赛力斯跌破80元,28万散户深套,有人已亏超36万

心态崩了!赛力斯跌破80元,28万散户深套,有人已亏超36万

财经智多星
2026-05-19 12:37:19
韩国西瓜大涨价,单个西瓜卖到136元

韩国西瓜大涨价,单个西瓜卖到136元

界面新闻
2026-05-19 12:46:17
泰国发生中国公民遭非法拘禁并被勒索案,中方:敦促泰方尽快查明案件事实

泰国发生中国公民遭非法拘禁并被勒索案,中方:敦促泰方尽快查明案件事实

界面新闻
2026-05-19 17:02:39
武汉:生态红线内“藏”非法化工厂 所在村庄患癌比例惊人

武汉:生态红线内“藏”非法化工厂 所在村庄患癌比例惊人

大象新闻
2026-05-18 17:27:36
黄仁勋的指甲冲上热搜!高清镜头曝光,网友吵翻!医生:这6种情况都可能

黄仁勋的指甲冲上热搜!高清镜头曝光,网友吵翻!医生:这6种情况都可能

上观新闻
2026-05-18 22:12:55
【解局】海军官宣辽宁舰携实弹奔赴西太训练,专家解析亮点

【解局】海军官宣辽宁舰携实弹奔赴西太训练,专家解析亮点

环球网资讯
2026-05-19 16:56:15
中国第一巨人鲍喜顺:不听医生劝告非要生子,现在儿子长到多高

中国第一巨人鲍喜顺:不听医生劝告非要生子,现在儿子长到多高

王鶔吃吃喝喝
2026-05-18 19:18:58
60亿豪赌并购,一年就干出3800亿AI巨头,苏州父子一战封神

60亿豪赌并购,一年就干出3800亿AI巨头,苏州父子一战封神

毒sir财经
2026-05-18 23:00:27
2026-05-19 17:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13033文章数 142651关注度
往期回顾 全部

科技要闻

马斯克败诉,法院判他起诉OpenAI太晚了

头条要闻

4名男子赴泰国考察项目已失联半月 家属:人或在缅甸

头条要闻

4名男子赴泰国考察项目已失联半月 家属:人或在缅甸

体育要闻

文班亚马1比0雷霆:凌驾MVP的史诗价值

娱乐要闻

姚晨删博难平众怒,为什么她还能蹦哒

财经要闻

从卖流量到卖Token,运营商算力生意破局

汽车要闻

德味操控+聪明大脑,与众07不输新势力

态度原创

游戏
手机
本地
时尚
公开课

脱衣动作游戏《秋叶原之旅》15周年 销量破百万

手机要闻

随时随地畅玩3A大作!联想拯救者手机Y70新一代图赏

本地新闻

别搜晋江小说了,去看真的晋江

休闲阔腿裤怎么穿才美?看看这些穿搭公式,解锁不重样的造型

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版