网易首页 > 网易号 > 正文 申请入驻

视频可以精准控制了!一句话给熊戴眼镜的那种,扩散模型立功

0
分享至

ReLER Lab团队
量子位 | 公众号 QbitAI

如何让你的模型能感知到视频的粒度,随着你的心思想编辑哪就编辑哪呢?

Sora掀起了一股视频生成的热潮,视频编辑作为视频生成的一个热门方向一直饱受关注。但是以往的视频编辑方法主要关注视频的风格转换,或者只编辑单一的目标。

如果用户想要同时编辑视频的多个区域,大到多个目标,小到头发丝或者身体的一部分,应该怎么办呢?

来自悉尼科技大学的ReLER lab实验室的同学和浙江大学的学者合作提出了一种多粒度视频编辑的任务,包括类别级、实例级和局部级的视频编辑。

通过深入研究扩散模型内部的表征空间,提出了VideoGrain的解决框架,无需任何训练,即可实现文本到多个区域的控制,实例级别的特征分离,在真实世界的视频上取得了最优性能。

论文已被ICLR 2025接收,是当天的HuggingFace daily paper top1。目前所有的数据集,模型,代码都已开源



本文第一作者杨向鹏是悉尼科技大学的在读博士生,主要研究方向为扩散模型、视频生成与编辑,师从浙江大学计算机学院杨易教授和朱霖潮副教授。

多粒度视频编辑是什么?

首先来看看多粒度视频编辑是什么,到底有什么挑战。



根据真实世界的视频粒度,受语义分割任务的启迪,他们可以将视频的编辑分为三个的层次(粒度逐渐加深):

  • (1)类别级编辑(Class Level):编辑同一类别内的对象。(例如,将两个男人变为“蜘蛛侠”,原视频中的两人都属于人这一类别,视频上方第二列所示)
  • (2)实例级编辑(Instance Level):将视频中每个单独的实例编辑为不同的对象。(例如,将左边的男人编辑为“蜘蛛侠”,右边的男人编辑为“北极熊”,视频上方第三列所示)
  • (3)局部级编辑(Part Level):对单个实例的特定元素进行部件级别的编辑,包括添加新的object和修改局部属性。(例如,在将右边的男人编辑为“北极熊”时添加“太阳镜”,视频上方第四列所示)。

尽管现有的方法采用了各种视觉一致性的表征,比如检测框(groundvdieo)或者特征响应(TokenFlow)等等,但这些信号没有空间的感知能力,基于T2V模型的视频编辑,比如CVPR24的DMT,再至目前工业界的SOTA-Pika,仍然无法实现多粒度的视频编辑结果。



这里的原因是什么呢?

作者通过对扩散模型的特征进行深入研究,说明了多粒度视频编辑的两大挑战。



  • 1、特征耦合:如图(b),在对inversion过程中的自注意力特征进行聚类之后,可以发现:虽然聚类的结果是有清晰的布局信息的,但是无法“左边的人”和“右边的人“。当增加聚类的数量之后,会导致更细致的分割结果比如头,上半身,下半身,但仍然无法区分左右。因此,实例之间的特征耦合影响了多粒度视频编辑中的有效性。
  • 2、文本到多个区域的控制:使用SDEdit将同一类的两个男人编辑为左边钢铁侠,右边蜘蛛侠,树变成樱花。结果如上图(d)示,“钢铁侠”和“蜘蛛侠”的权重在左边的人上重叠,“花朵”的权重泄漏到右边的人上,导致了(c)中的编辑失败。因此,另一个难点在于:能否调节交叉注意力以确保每个局部编辑的权重准确分布在预期区域。

VideoGrain整体框架

基于之前的观察,交叉注意力的分布和编辑的结果密切相关,而自注意力对于生成时间一致性的视频又十分重要。然而,一个区域内的像素有可能关注到外部或者相似的区域,这对于多粒度的视频编辑造成了很大的挑战。因此,需要去同时修改交叉和自注意力来让每个像素或者文本embedding只关注到正确的区域。



为了实现上述目标,团队提出**ST-Layout Attention (时空布局注意力机制),以一种unified的方式(即增强positive,减弱negative)来调节自注意力和交叉注意力。

具体来说,对于第i帧,他们修改Query-key对的condiation map:



调节交叉注意力(cross-attn)以实现文本到区域控制



在交叉注意力层中,文本特征作为key和value,与来自video latents的query特征进行交互。由于编辑目标的外观和位置与交叉注意力的权重分布密切相关,团队目标是将每个实例的文本特征聚集到想要去编辑的位置。

如上图右侧所示,在增加positive value和减去negative value后,“Spiderman”的原始交叉注意力权重(例如 p)被放大并集中在左边的人身上。而“polar bear”的权重则集中在右边的人身上。这表明他们调节将每个局部文本提示的权重重新分配到目标区域上,实现了精确的文本到多个区域的控制。

调节自注意力(self-attention)以保持特征分离



为了使T2I模型SD适应T2V编辑,作者将整个视频视为“一个更大的图像”,用时空自注意力替换空间注意力。这增强了跨帧交互,并提供了更广泛的视觉上下文。

然而,简单的自注意力可能导致,模型关注不相关或相似的区域(例如,上图底部,调节前左边人的鼻子p同时关注到左右两个人的鼻子),这会导致纹理混合。

为了解决这个问题,需要加强同一区域内的正向关注,并限制不同区域之间的负向交互。

如上图右侧所示,在应用自注意力调节后,来自左侧人物鼻子的query特征(例如p)仅关注左侧的人,避免了对右侧的人关注。这表明,自注意力调节打破了扩散模型原有的类别级特征响应,确保了实例级甚至以上的特征分离。

实验结果

VideoGrain视频编辑结果

作者在涵盖类别级、实例级和部分级编辑的视频上评估了VideoGrain。

首先VideoGrain可以保持背景不变,单独的修左边的人和右边的人,或者同时修改两个人。

实例级别:VideoGrain对动物实例也同样有效,两个猴子可以被分别修改为泰迪熊和金毛犬。

在复杂的非刚性运动场景中,例如打羽毛球。以前的方法往往在处理这种非刚性运动时表现不佳,VideoGrain可以成功编辑。此外,该方法还可以多区域编辑,既可以编辑前景也可以编辑背景,在手推车场景中,背景变为“森林中的湖上,长满苔藓的石桥”。

部件级别:VideoGrain可以做到在将当前人的身份修改为超人的同时,给超人加上墨镜,这属于新增加新的object。同时,也可以修改物体的原有部分属性,比如小猫的头改成橘色。

总体而言,对于多粒度编辑,VideoGrain表现出色。

定性和定量的比较

定性比较

下图是VideoGrain与SOTA之间的比较,包括T2I和T2V方法的实例级和部分级编辑。



(1)部分级编辑:VideoGrain可以同时编辑太阳镜和拳击手套。ControlVideo编辑了手套,但在太阳镜和运动一致性方面表现不佳。TokenFlow和DMT只编辑了太阳镜,但未能修改手套或背景。



(2)人类实例:所有基于T2I的方法都将两个人都编辑成钢铁侠。VideoGrain则可以分别编辑,将左侧人物变成钢铁侠,右侧人物转变为猴子,打破了人类类别的限制。



(3)动物实例:即使是具有视频生成先验的DMT,也仍然将熊猫和贵宾犬的特征混合在一起。相比之下,VideoGrain成功地将一个编辑成熊猫,另一个编辑成贵宾犬。

定量比较



消融实验

ST-Layout Attn的时间一致性:作为视频的编辑方法,时空一致性一直是及其重要的一点,VideoGrain可以在准确的编辑多个区域的情况下,充分的保证时间一致性,防止编辑目标的纹理的抖动或者不稳定。

定位概念+准确编辑

和最近twitter上很火的concept attention不同,该方法可以在localize concept(定位概念)的同时实现编辑:

目前,VideoGrain的数据和所有代码都已开源。

研究团队表示,VideoGrain为扩散模型提供了新的视频编辑范式,或将推动视频生成,扩散模型等领域以及视频编辑软件出现更多,好玩有趣的应用。

目前,该团队还在进一步的拓展视频生成方向,比如音视频的生成,视频的切换视角生成,以及电影级的多人物有声长视频生成,欢迎工业界有资源的小伙伴合作与加入,共同探索视频生成的未来。

论文链接:https://arxiv.org/abs/2502.17258
项目主页:https://knightyxp.github.io/VideoGrain_project_page
Github:https://github.com/knightyxp/VideoGrain

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

AI Agent来,传统BI危

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
解决台湾问题有了新手段?不用解放军出马,美已预感到大事不妙

解决台湾问题有了新手段?不用解放军出马,美已预感到大事不妙

车马点兵V
2025-03-27 12:08:48
200万存款和两套房一夜清零!见证了身边三个中年人一夜返贫后,我突然悟了……

200万存款和两套房一夜清零!见证了身边三个中年人一夜返贫后,我突然悟了……

19楼
2025-03-24 20:32:03
亲戚有向你提出过炸裂的要求吗?不看不知道,一看吓一跳,太可怕

亲戚有向你提出过炸裂的要求吗?不看不知道,一看吓一跳,太可怕

热闹的河马
2025-03-28 11:16:10
售价62.8万起,仰望U7正式上市,百公里加速2.9秒,天神之眼A智驾

售价62.8万起,仰望U7正式上市,百公里加速2.9秒,天神之眼A智驾

沙雕小琳琳
2025-03-29 01:47:58
刘恺威现身江苏淮安花街,疑戴假发纹眉变化大难认出,个子不高

刘恺威现身江苏淮安花街,疑戴假发纹眉变化大难认出,个子不高

归史
2025-03-28 12:41:37
这几年贬值最多的五样东西,曾经千万买不到,如今白送没人要!

这几年贬值最多的五样东西,曾经千万买不到,如今白送没人要!

史小纪
2024-10-19 12:53:51
有意思,阿里纳斯在公牛队乔希·吉迪打湖人队致胜投篮后的反应

有意思,阿里纳斯在公牛队乔希·吉迪打湖人队致胜投篮后的反应

好火子
2025-03-29 00:47:30
中年人,建议你尽量买10万元左右的私家车,不要买豪车,你养不起

中年人,建议你尽量买10万元左右的私家车,不要买豪车,你养不起

沙雕小琳琳
2025-03-28 13:59:02
中超悍将险些废掉王钰栋,背后犯规后直接踩脚踝,国足球迷不原谅

中超悍将险些废掉王钰栋,背后犯规后直接踩脚踝,国足球迷不原谅

球盲百小易
2025-03-29 01:49:51
李嘉诚,大撤退!抛45%股份,疯狂套现,业内:2025年市场恐生变

李嘉诚,大撤退!抛45%股份,疯狂套现,业内:2025年市场恐生变

南生今世说
2025-02-01 14:40:43
7万人大撤离仅用45分钟?杭州这波操作让北上广沉默了

7万人大撤离仅用45分钟?杭州这波操作让北上广沉默了

小虎新车推荐员
2025-03-28 15:23:22
默茨也不拦着?德国政府关门前炸毁最现代化电厂,魏德尔愤怒表态

默茨也不拦着?德国政府关门前炸毁最现代化电厂,魏德尔愤怒表态

麓谷隐士
2025-03-28 09:40:21
医药迎来超大利好

医药迎来超大利好

好买研习社
2025-03-28 19:18:02
杰森斯坦森新片票房被《哪吒2》碾压,观众:片名翻译得不好

杰森斯坦森新片票房被《哪吒2》碾压,观众:片名翻译得不好

影视高原说
2025-03-28 10:20:47
波音、空客急了!C919获澳洲、加拿大适航证,最快今年拿下欧洲?

波音、空客急了!C919获澳洲、加拿大适航证,最快今年拿下欧洲?

阿伧说事
2025-03-28 17:57:57
郑爽的滞留美国现状:又胖又秃生活窘迫,为留美国找白人男友

郑爽的滞留美国现状:又胖又秃生活窘迫,为留美国找白人男友

阿纂看事
2024-11-14 10:52:04
车主竟然用这种方法,防止狗狗尿尿在轮胎上?竟然往轮胎喷异烟肼!

车主竟然用这种方法,防止狗狗尿尿在轮胎上?竟然往轮胎喷异烟肼!

超人强动物俱乐部
2025-03-21 03:46:13
炸裂!传安井食品不给媒体人全额报销机票,媒体人怒了!

炸裂!传安井食品不给媒体人全额报销机票,媒体人怒了!

小人物看尽人间百态
2025-03-27 19:42:48
同脸不同命!再看32岁的章泽天和陈都灵,才明白两人的转折点在哪

同脸不同命!再看32岁的章泽天和陈都灵,才明白两人的转折点在哪

素衣读史
2025-03-26 15:49:30
75万本金,持有价值股的翻倍之路第52天

75万本金,持有价值股的翻倍之路第52天

股市渔夫
2025-03-12 17:53:17
2025-03-29 02:35:26
量子位 incentive-icons
量子位
追踪人工智能动态
10240文章数 176075关注度
往期回顾 全部

科技要闻

DeepSeek带动算力需求急涨,英伟达H20爆单

头条要闻

5岁女童小区内被碾压身亡 肇事司机家属:将起诉特斯拉

体育要闻

经历10次手术,这位40岁老将如今还在踢球

娱乐要闻

浪姐吵架剧本!陈德容脾气差 王蓉出局

财经要闻

清流|中国汽车“卷”遍全球

汽车要闻

3.89万!长安Lumin萌宝版上市40台Lumin全部送出

态度原创

艺术
亲子
时尚
教育
公开课

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

亲子要闻

小舅舅哄外甥女喝奶 最后段忍住一口干了

自从有了AI之后,我学会了向下管理

教育要闻

考研人莫名其妙的阿贝贝大赏。

公开课

李玫瑾:为什么性格比能力更重要?