网易首页 > 网易号 > 正文 申请入驻

CVPR 2025|视频抠图MatAnyone来了一次指定全程追踪,发丝级还原

0
分享至

本文由南洋理工大学和商汤科技联合完成。第一作者杨沛青为南洋理工大学 MMLab@NTU 在读博士生,在 CVPR、NeurIPS、IJCV 等国际顶级会议与期刊上发表多篇研究成果。项目负责作者为该校研究助理教授周尚辰和校长讲席教授吕建勤。

视频人物抠像技术在电影、游戏、短视频制作和实时视频通讯中具有广泛的应用价值,但面对复杂背景和多目标干扰时,如何实现一套兼顾发丝级细节精度及分割级语义稳定的视频抠图系统,始终是个挑战。

来自南洋理工大学 S-Lab 与商汤科技的研究团队最新提出了一个高效、稳定、实用的视频抠图新方法 ——MatAnyone。与传统无辅助方法不同,MatAnyone 提出一种基于记忆传播的「目标指定型」视频抠像方法:只需在第一帧通过人物遮罩指定抠像目标,即可在整个视频中实现稳定、高质量的目标提取。

  • 论文标题:MatAnyone: Stable Video Matting with Consistent Memory Propagation
  • 论文链接:https://arxiv.org/abs/2501.14677
  • 视频:https://youtu.be/oih0Zk-UW18
  • 代码:https://github.com/pq-yang/MatAnyone
  • 网页:https://pq-yang.github.io/projects/MatAnyone/

MatAnyone 一经发布在社交媒体上获得了大众的讨论和关注,其核心亮点总结如下:

  • 快速抠图,目标可控

仅需首帧目标指定,无需额外辅助信息,支持灵活定义抠图对象,满足多场景需求。

  • 稳定跟踪,全程不抖

创新 “区域自适应记忆融合” 机制,有效保持目标一致性,实现长视频中的稳定人像跟踪。

  • 细节出众,发丝级还原

融合真实分割数据与高质量新数据集,边界处理自然平滑,抠图效果更贴近真实。

「目标指定型」:更贴近真实使用场景

目前主流的视频抠图方法根据 “除输入视频外是否有其他辅助输入” 这一条件可以分为两类:

  • 无辅助型方法(如 RVM):用户只需上传输入视频即可。
  • 辅助引导型方法(如 MaGGIe):除输入视频外,用户需通过如三分掩膜(trimap)或分割掩膜(segmentation mask)等方式在一帧或多帧指定抠像目标。

无辅助型方法虽然方便,但是由于主体目标不明确,在真实使用场景中容易出现影响实际使用的错抠、漏抠等现象。

  • 【场景一】前景存在多个主要人物:在实际应用中,很可能出现的需求是单独抠出其中特定一位,合成到另外场景中制作视频,无辅助型方法不能实现目标的指定,导致输出的结果无法直接投入使用。
  • 【场景二】背景存在混淆人物:即使前景只存在一位主体人物,背景中来来往往的行人往往会 “混淆视听”,尤其是行人路过前景人物时,无辅助型方法往往会把背景行人的肢体也一并抠出,使输出结果不够准确干净。

因此,为了让视频抠像技术能被更好地使用,MatAnyone 选择了辅助引导型的设定,并专注解决的是这样一个场景:

「设定主角,其他交给模型」:给定目标人物在第一帧的掩膜,后续的抠像自动锁定目标完成。无需逐帧修正,准确、自然、连贯地抠出整段视频。

这种设置既兼顾用户可控性,又具有更强的实用性和鲁棒性,是当前视频编辑领域最具潜力的落地方案之一。

面向「视频抠图」任务:记忆传播与训练策略的新范式

任务对比:「视频抠图」比「视频分割」更难一层

虽然 “目标指定型” 的任务设定在视频目标分割(Video Object Segmentation, VOS)中已经被广泛研究,通常被称为 “半监督” 分割(即只给第一帧的掩膜),但视频抠图(Video Matting, VM)的难度却更进一步。

在 VOS 中,模型的任务为“是 / 否为目标前景” 的二值判断题;而在 VM 中,基于这个语义判断,模型还需预测目标前景在每个像素点上的 “透明度(alpha)”—— 这不仅要求核心区域的语义精准,更要求边界细节的提取(如发丝、衣角的半透明过渡)。

MatAnyone 正是在这一背景下提出了面向视频抠图任务的全新记忆传播与训练策略,在达到分割级语义稳定的基础上进一步实现了发丝级细节精度。

1. 一致性记忆传播机制:Matting 专属的 “记忆力”

相比静态图像抠图,视频抠图面临更大的挑战,不仅需要逐帧生成高质量的透明通道( alpha matte),还必须确保前后帧之间的时序一致性,否则就会出现闪烁、跳变等明显视觉问题。为此,MatAnyone 借鉴视频分割中的记忆机制,在此基础上提出了专为视频抠图设计的一致性记忆传播机制(Consistent Memory Propagation)。

区域自适应融合记忆(Region-Adaptive Fusion)

模型会在每一帧中预测哪些区域与上一帧差异较大(如身体边缘),哪些区域变化很小(如身体主干),并分别处理:

  • 对于变化幅度较大的区域(通常出现在目标边缘,如头发、衣摆),模型更依赖当前帧从记忆库中检索到的记忆信息;
  • 而对变化较小的区域(如身体内部),则更多保留上一帧的记忆信息,避免重复建模,减少误差传播。

边界细节增强,核心区域稳定

这种区域感知式的信息融合方式,在训练阶段引导模型更专注于细节边界,在推理阶段则提升了语义稳定性与时间一致性。尤其在复杂背景或人物交互频繁的场景下,MatAnyone 能够稳准地识别目标、抠出清晰自然的边缘效果,极大提升了视频抠图的可用性与观感质量。

2. 共头监督策略:让分割数据 “真正为抠图所用”

一直以来,「视频抠图」的一个核心难点始终是真实训练数据的缺失。相较于「视频分割」在真实数据上的标注成本,「视频抠图」所需要的带透明度标注的数据格外昂贵,这限制了模型在稳定性与泛化能力上的进一步提升。

在真实透明度数据稀缺的背景下,Video Matting 模型往往会引入大量真实分割数据进行辅助训练,以提升模型在复杂环境中的稳定性和泛化能力。

  • 传统做法通常采用 “平行预测头” 结构:在输出层增加一个仅用于训练阶段的分割头,用于分割数据的监督,而抠图主头则仅由合成抠图数据驱动。

这种结构虽然能一定程度引入语义信息对抠图头的监督,但其不直接的监督方式导致语义信息在特征传播过程中被稀释,无法充分发挥分割数据对提升稳定性的优势。

  • MatAnyone 提出了结构创新的 “共头监督策略”:抛弃 “平行预测头”,直接将真实分割数据引入抠图主头进行训练,让所有数据源在同一个通道上对模型进行统一监督。

这种方式极大提高了语义信息的共享效率,也最大程度地利用了真实分割数据对透明通道预测的泛化性和稳定性的提升。

具体操作上:

  • 在核心区域,使用分割掩膜进行逐像素监督,确保模型对语义结构的稳定理解;
  • 在边界区域,引入改进版的 DDC 损失(Scaled DDC Loss),即便分割数据没有 alpha 标签,也能通过图像结构引导模型生成过渡自然的边缘。

这一策略的核心优势在于:让分割数据 “真正服务于抠图任务本身”,而非仅仅提供辅助信号。

3. 自建高质数据集:训练更稳,评估更难

高质量的数据始终是训练稳定、泛化强的视频抠图模型的基础。针对现有数据集在规模、细节和多样性上的不足,MatAnyone 团队自建了两套关键数据资源:

  • VM800 训练集:相较于主流的 VideoMatte240K,VM800 的规模翻倍,覆盖更多发型、服饰和运动状态,在核心区域和边界区域的质量都显著提升,有效增强了模型在抠图任务中的鲁棒性;
  • YouTubeMatte 测试集:相较于主流的 VideoMatte240K 测试集,我们构建了一个前景更加多样的测试集,并且在合成前后景的过程中进行了和谐化的后处理,使其更加贴近真实分布,有效提高了该测试集的难度。

这两套数据集为 MatAnyone 提供了扎实的训练基础与更贴近真实世界的验证标准,在推动模型性能提升的同时,也为未来视频抠图研究提供了更具挑战性的新 benchmark。

多场景适用性:灵活应对多类应用场景

MatAnyone 在模型设计与推理机制上的灵活性,使其具备良好的任务泛化能力,能够适配多种实际视频处理场景(更多例子请移步主页):

通用视频抠图(General Matting):适用于短视频剪辑、直播背景替换、电影 / 广告 / 游戏后期等常见场景,仅需第一帧提供目标掩膜,后续帧即可自动完成稳定抠图,具备边界清晰、背景干净、跨帧一致性强的优势。

实例抠图(Instance Matting):面对多人物或复杂背景的视频内容,MatAnyone 支持通过第一帧掩膜指定目标对象,进行后续稳定追踪与抠图,有效避免目标混淆或漂移,适合虚拟人剪辑、人物聚焦等实例级编辑任务。

推理阶段增强(Iterative Refinement):对于高精度场景,如广告制作、影视后期等,MatAnyone 提供可选的首帧迭代优化机制,通过多轮推理精细化第一帧alpha matte,从而进一步提升整段视频的细节还原与边界自然度。

实验结果:领先的细节质量与时序稳定

为了系统评估 MatAnyone 在视频抠图任务中的综合表现,我们从定性与定量两个角度进行了对比实验,结果显示 MatAnyone 在精度、稳定性与视觉质量等多个维度均优于现有主流无辅助型及辅助引导型方法。

定性评估(Qualitative)

在真实视频案例中,我们展示了 MatAnyone 与现有方法 RVM、FTP-VM、MaGGIe 的可视化对比。结果表明,MatAnyone 能够更准确地提取目标人物轮廓,尤其是在人物动作剧烈或背景复杂的情况下,依然能保持头发、边缘衣物等细节的清晰度,并有效避免背景穿透与边界断裂等常见问题。同时,它也具备更强的实例区分能力,即使画面中存在多个显著人物,也能准确锁定目标对象并保持一致跟踪。

定量评估(Quantitative)

在合成数据集 VideoMatte 和自建的 YouTubeMatte 上,我们使用五个关键指标对各方法进行全面评估:

  • MAD(Mean Absolute Difference)与 MSE(Mean Squared Error)用于衡量语义准确性;
  • Grad(Gradient)用于细节锐利度评估;
  • Conn(Connectivity)代表整体视觉连贯性;
  • dtSSD 则衡量跨帧间的时序一致性。

如 Table 1 所示,MatAnyone 在高、低分辨率的所有数据集上均取得最低的 MAD 和 dtSSD,表现出极高的语义稳定性与时间一致性;同时在 Conn 指标上也位居首位,验证了其在整体观感和边缘处理上的领先表现。

总结与展望

MatAnyone 是一套面向真实使用场景的人像视频抠图系统,专注于在仅提供首帧目标的前提下,实现语义稳定且边界精细的视频级抠图。根据「视频抠图」任务的特性,它引入了区域自适应的记忆融合机制,在保持语义稳定性的同时,精细提取了头发等细节区域。借助新构建的 VM800 高质量数据集与全新的训练策略,MatAnyone 显著提升了在复杂背景下的抠图稳定性。

面对真实训练数据的制约,「视频抠图」任务仍然像是在 “戴着镣铐跳舞”,当前的效果虽有显著突破,但仍有广阔的提升空间。未来,我们团队将继续探索更高效的训练策略、更泛化的数据构建方式,以及更通用的记忆建模机制,推动视频抠图技术在真实世界中实现更强鲁棒性与更广应用性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重磅:乌克兰和德国研发新型远程导弹!摆脱美国卫星系统依赖

重磅:乌克兰和德国研发新型远程导弹!摆脱美国卫星系统依赖

项鹏飞
2026-05-20 20:09:27
4月经济数据:不借钱不花钱,不买车不买房

4月经济数据:不借钱不花钱,不买车不买房

路财主
2026-05-20 19:54:00
美媒称普京这次访华,要把一个令中方为难的项目谈成

美媒称普京这次访华,要把一个令中方为难的项目谈成

清欢百味
2026-05-20 02:53:21
马斯克,也没挡住这股潮流

马斯克,也没挡住这股潮流

补壹刀
2026-05-20 21:12:55
这得吃牌!哈滕防守时拉扯卡斯尔头发,裁判没有表示

这得吃牌!哈滕防守时拉扯卡斯尔头发,裁判没有表示

懂球帝
2026-05-21 10:43:37
博主“耿同学”再爆料:中南大学湘雅医学院某“杰青”论文造假!

博主“耿同学”再爆料:中南大学湘雅医学院某“杰青”论文造假!

总在茶余后
2026-05-21 07:04:07
文班亚马沮丧离场!被拉手臂+拉球衣仅2罚球 轰21+17+6+4帽真不差

文班亚马沮丧离场!被拉手臂+拉球衣仅2罚球 轰21+17+6+4帽真不差

颜小白的篮球梦
2026-05-21 11:32:51
外媒:李在明谴责以色列在国际水域扣押韩国公民,抨击以方此举“严重越界”

外媒:李在明谴责以色列在国际水域扣押韩国公民,抨击以方此举“严重越界”

环球网资讯
2026-05-20 16:53:49
央视紧急提醒!家家户户应急储备赶紧备上,关键时刻能救命

央视紧急提醒!家家户户应急储备赶紧备上,关键时刻能救命

趣味萌宠的日常
2026-05-21 07:18:02
NBA新秀一阵出炉:弗拉格领衔,马刺后卫未来将成超巨?

NBA新秀一阵出炉:弗拉格领衔,马刺后卫未来将成超巨?

仰卧撑FTUer
2026-05-21 09:13:32
3-0!维拉首夺欧联杯+终结30年冠军荒,54岁埃梅里5次夺冠创纪录

3-0!维拉首夺欧联杯+终结30年冠军荒,54岁埃梅里5次夺冠创纪录

我爱英超
2026-05-21 06:36:09
从偶遇到相约:曾被普京抱过的湖南小男孩,26年后与普京再次会面,父母回忆当年细节

从偶遇到相约:曾被普京抱过的湖南小男孩,26年后与普京再次会面,父母回忆当年细节

潇湘晨报
2026-05-20 19:21:01
国宴上桌,高层调研:一家民企密集被“看见”,什么信号?

国宴上桌,高层调研:一家民企密集被“看见”,什么信号?

智谷趋势
2026-05-20 17:04:05
520鹿晗一个人在吉林度过,面相变了,眼袋浮肿,走路弯腰驼背

520鹿晗一个人在吉林度过,面相变了,眼袋浮肿,走路弯腰驼背

小娱乐悠悠
2026-05-21 09:28:51
上海发生日本人被刺伤事件,日本提出交涉

上海发生日本人被刺伤事件,日本提出交涉

凤眼论
2026-05-20 16:17:28
特朗普亮台海底牌,中美战略大交易前提已具备,普京紧急来华

特朗普亮台海底牌,中美战略大交易前提已具备,普京紧急来华

邱震海
2026-05-18 21:00:03
张雪机车连夺5冠!意大利媒体人发表专业文章,披露张雪机车真相

张雪机车连夺5冠!意大利媒体人发表专业文章,披露张雪机车真相

火山詩话
2026-05-20 08:11:33
比学术造假更可怕的是,不造假饭碗都保不住!

比学术造假更可怕的是,不造假饭碗都保不住!

细说职场
2026-05-20 12:02:31
实探上海农产品批发市场:价格暴跌,商家不敢贸然拿货;当地果农:烂树上也不会泡药;官方通报“泡药杨梅”事件

实探上海农产品批发市场:价格暴跌,商家不敢贸然拿货;当地果农:烂树上也不会泡药;官方通报“泡药杨梅”事件

新民晚报
2026-05-21 09:04:44
3人伤退!拽头发都不吹!1比1平了,甩给文班的新课题...

3人伤退!拽头发都不吹!1比1平了,甩给文班的新课题...

左右为篮
2026-05-21 11:31:41
2026-05-21 11:47:01
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13048文章数 142651关注度
往期回顾 全部

科技要闻

好到离谱也不够!英伟达交出816亿美元营收

头条要闻

中国人家中常备的川贝枇杷膏 被维基百科创建专属词条

头条要闻

中国人家中常备的川贝枇杷膏 被维基百科创建专属词条

体育要闻

常住人口7000的小镇,拥有了一支德甲球队

娱乐要闻

同行吐槽汪涵野心重 爆雷37万人受损

财经要闻

英伟达业绩超预!指引再新高仍不够亮眼

汽车要闻

26.98万起步 看小鹏GX如何诠释一车多能以及满配的科技与豪华

态度原创

教育
健康
艺术
公开课
军事航空

教育要闻

有一种回报率很高的教育方式:大量记录你的孩子

专家:别把PRP当作“自体干细胞”

艺术要闻

崔雪冬 2026年油画新作

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄媒盛赞中国军人:身姿挺拔 站如松柏

无障碍浏览 进入关怀版