CVPR 2025｜视频抠图MatAnyone来了一次指定全程追踪，发丝级还原|鲁棒性|cvpr|视频生成模型|matanyone

分享至

本文由南洋理工大学和商汤科技联合完成。第一作者杨沛青为南洋理工大学 MMLab@NTU 在读博士生，在 CVPR、NeurIPS、IJCV 等国际顶级会议与期刊上发表多篇研究成果。项目负责作者为该校研究助理教授周尚辰和校长讲席教授吕建勤。

视频人物抠像技术在电影、游戏、短视频制作和实时视频通讯中具有广泛的应用价值，但面对复杂背景和多目标干扰时，如何实现一套兼顾发丝级细节精度及分割级语义稳定的视频抠图系统，始终是个挑战。

来自南洋理工大学 S-Lab 与商汤科技的研究团队最新提出了一个高效、稳定、实用的视频抠图新方法 ——MatAnyone。与传统无辅助方法不同，MatAnyone 提出一种基于记忆传播的「目标指定型」视频抠像方法：只需在第一帧通过人物遮罩指定抠像目标，即可在整个视频中实现稳定、高质量的目标提取。

论文标题：MatAnyone: Stable Video Matting with Consistent Memory Propagation
论文链接：https://arxiv.org/abs/2501.14677
视频：https://youtu.be/oih0Zk-UW18
代码：https://github.com/pq-yang/MatAnyone
网页：https://pq-yang.github.io/projects/MatAnyone/

MatAnyone 一经发布在社交媒体上获得了大众的讨论和关注，其核心亮点总结如下：

快速抠图，目标可控

仅需首帧目标指定，无需额外辅助信息，支持灵活定义抠图对象，满足多场景需求。

稳定跟踪，全程不抖

创新 “区域自适应记忆融合” 机制，有效保持目标一致性，实现长视频中的稳定人像跟踪。

细节出众，发丝级还原

融合真实分割数据与高质量新数据集，边界处理自然平滑，抠图效果更贴近真实。

「目标指定型」：更贴近真实使用场景

目前主流的视频抠图方法根据 “除输入视频外是否有其他辅助输入” 这一条件可以分为两类：

无辅助型方法（如 RVM）：用户只需上传输入视频即可。
辅助引导型方法（如 MaGGIe）：除输入视频外，用户需通过如三分掩膜（trimap）或分割掩膜（segmentation mask）等方式在一帧或多帧指定抠像目标。

无辅助型方法虽然方便，但是由于主体目标不明确，在真实使用场景中容易出现影响实际使用的错抠、漏抠等现象。

【场景一】前景存在多个主要人物：在实际应用中，很可能出现的需求是单独抠出其中特定一位，合成到另外场景中制作视频，无辅助型方法不能实现目标的指定，导致输出的结果无法直接投入使用。
【场景二】背景存在混淆人物：即使前景只存在一位主体人物，背景中来来往往的行人往往会 “混淆视听”，尤其是行人路过前景人物时，无辅助型方法往往会把背景行人的肢体也一并抠出，使输出结果不够准确干净。

因此，为了让视频抠像技术能被更好地使用，MatAnyone 选择了辅助引导型的设定，并专注解决的是这样一个场景：

「设定主角，其他交给模型」：给定目标人物在第一帧的掩膜，后续的抠像自动锁定目标完成。无需逐帧修正，准确、自然、连贯地抠出整段视频。

这种设置既兼顾用户可控性，又具有更强的实用性和鲁棒性，是当前视频编辑领域最具潜力的落地方案之一。

面向「视频抠图」任务：记忆传播与训练策略的新范式

任务对比：「视频抠图」比「视频分割」更难一层

虽然 “目标指定型” 的任务设定在视频目标分割（Video Object Segmentation, VOS）中已经被广泛研究，通常被称为 “半监督” 分割（即只给第一帧的掩膜），但视频抠图（Video Matting, VM）的难度却更进一步。

在 VOS 中，模型的任务为“是 / 否为目标前景” 的二值判断题；而在 VM 中，基于这个语义判断，模型还需预测目标前景在每个像素点上的 “透明度（alpha）”—— 这不仅要求核心区域的语义精准，更要求边界细节的提取（如发丝、衣角的半透明过渡）。

MatAnyone 正是在这一背景下提出了面向视频抠图任务的全新记忆传播与训练策略，在达到分割级语义稳定的基础上进一步实现了发丝级细节精度。

1. 一致性记忆传播机制：Matting 专属的 “记忆力”

相比静态图像抠图，视频抠图面临更大的挑战，不仅需要逐帧生成高质量的透明通道（ alpha matte），还必须确保前后帧之间的时序一致性，否则就会出现闪烁、跳变等明显视觉问题。为此，MatAnyone 借鉴视频分割中的记忆机制，在此基础上提出了专为视频抠图设计的一致性记忆传播机制（Consistent Memory Propagation）。

区域自适应融合记忆（Region-Adaptive Fusion）

模型会在每一帧中预测哪些区域与上一帧差异较大（如身体边缘），哪些区域变化很小（如身体主干），并分别处理：

对于变化幅度较大的区域（通常出现在目标边缘，如头发、衣摆），模型更依赖当前帧从记忆库中检索到的记忆信息；
而对变化较小的区域（如身体内部），则更多保留上一帧的记忆信息，避免重复建模，减少误差传播。

边界细节增强，核心区域稳定

这种区域感知式的信息融合方式，在训练阶段引导模型更专注于细节边界，在推理阶段则提升了语义稳定性与时间一致性。尤其在复杂背景或人物交互频繁的场景下，MatAnyone 能够稳准地识别目标、抠出清晰自然的边缘效果，极大提升了视频抠图的可用性与观感质量。

2. 共头监督策略：让分割数据 “真正为抠图所用”

一直以来，「视频抠图」的一个核心难点始终是真实训练数据的缺失。相较于「视频分割」在真实数据上的标注成本，「视频抠图」所需要的带透明度标注的数据格外昂贵，这限制了模型在稳定性与泛化能力上的进一步提升。

在真实透明度数据稀缺的背景下，Video Matting 模型往往会引入大量真实分割数据进行辅助训练，以提升模型在复杂环境中的稳定性和泛化能力。

传统做法通常采用 “平行预测头” 结构：在输出层增加一个仅用于训练阶段的分割头，用于分割数据的监督，而抠图主头则仅由合成抠图数据驱动。

这种结构虽然能一定程度引入语义信息对抠图头的监督，但其不直接的监督方式导致语义信息在特征传播过程中被稀释，无法充分发挥分割数据对提升稳定性的优势。

MatAnyone 提出了结构创新的 “共头监督策略”：抛弃 “平行预测头”，直接将真实分割数据引入抠图主头进行训练，让所有数据源在同一个通道上对模型进行统一监督。

这种方式极大提高了语义信息的共享效率，也最大程度地利用了真实分割数据对透明通道预测的泛化性和稳定性的提升。

具体操作上：

在核心区域，使用分割掩膜进行逐像素监督，确保模型对语义结构的稳定理解；
在边界区域，引入改进版的 DDC 损失（Scaled DDC Loss），即便分割数据没有 alpha 标签，也能通过图像结构引导模型生成过渡自然的边缘。

这一策略的核心优势在于：让分割数据 “真正服务于抠图任务本身”，而非仅仅提供辅助信号。

3. 自建高质数据集：训练更稳，评估更难

高质量的数据始终是训练稳定、泛化强的视频抠图模型的基础。针对现有数据集在规模、细节和多样性上的不足，MatAnyone 团队自建了两套关键数据资源：

VM800 训练集：相较于主流的 VideoMatte240K，VM800 的规模翻倍，覆盖更多发型、服饰和运动状态，在核心区域和边界区域的质量都显著提升，有效增强了模型在抠图任务中的鲁棒性；
YouTubeMatte 测试集：相较于主流的 VideoMatte240K 测试集，我们构建了一个前景更加多样的测试集，并且在合成前后景的过程中进行了和谐化的后处理，使其更加贴近真实分布，有效提高了该测试集的难度。

这两套数据集为 MatAnyone 提供了扎实的训练基础与更贴近真实世界的验证标准，在推动模型性能提升的同时，也为未来视频抠图研究提供了更具挑战性的新 benchmark。

多场景适用性：灵活应对多类应用场景

MatAnyone 在模型设计与推理机制上的灵活性，使其具备良好的任务泛化能力，能够适配多种实际视频处理场景（更多例子请移步主页）：

通用视频抠图（General Matting）：适用于短视频剪辑、直播背景替换、电影 / 广告 / 游戏后期等常见场景，仅需第一帧提供目标掩膜，后续帧即可自动完成稳定抠图，具备边界清晰、背景干净、跨帧一致性强的优势。

实例抠图（Instance Matting）：面对多人物或复杂背景的视频内容，MatAnyone 支持通过第一帧掩膜指定目标对象，进行后续稳定追踪与抠图，有效避免目标混淆或漂移，适合虚拟人剪辑、人物聚焦等实例级编辑任务。

推理阶段增强（Iterative Refinement）：对于高精度场景，如广告制作、影视后期等，MatAnyone 提供可选的首帧迭代优化机制，通过多轮推理精细化第一帧alpha matte，从而进一步提升整段视频的细节还原与边界自然度。

实验结果：领先的细节质量与时序稳定

为了系统评估 MatAnyone 在视频抠图任务中的综合表现，我们从定性与定量两个角度进行了对比实验，结果显示 MatAnyone 在精度、稳定性与视觉质量等多个维度均优于现有主流无辅助型及辅助引导型方法。

定性评估（Qualitative）

在真实视频案例中，我们展示了 MatAnyone 与现有方法 RVM、FTP-VM、MaGGIe 的可视化对比。结果表明，MatAnyone 能够更准确地提取目标人物轮廓，尤其是在人物动作剧烈或背景复杂的情况下，依然能保持头发、边缘衣物等细节的清晰度，并有效避免背景穿透与边界断裂等常见问题。同时，它也具备更强的实例区分能力，即使画面中存在多个显著人物，也能准确锁定目标对象并保持一致跟踪。

定量评估（Quantitative）

在合成数据集 VideoMatte 和自建的 YouTubeMatte 上，我们使用五个关键指标对各方法进行全面评估：

MAD（Mean Absolute Difference）与 MSE（Mean Squared Error）用于衡量语义准确性；
Grad（Gradient）用于细节锐利度评估；
Conn（Connectivity）代表整体视觉连贯性；
dtSSD 则衡量跨帧间的时序一致性。

如 Table 1 所示，MatAnyone 在高、低分辨率的所有数据集上均取得最低的 MAD 和 dtSSD，表现出极高的语义稳定性与时间一致性；同时在 Conn 指标上也位居首位，验证了其在整体观感和边缘处理上的领先表现。

总结与展望

MatAnyone 是一套面向真实使用场景的人像视频抠图系统，专注于在仅提供首帧目标的前提下，实现语义稳定且边界精细的视频级抠图。根据「视频抠图」任务的特性，它引入了区域自适应的记忆融合机制，在保持语义稳定性的同时，精细提取了头发等细节区域。借助新构建的 VM800 高质量数据集与全新的训练策略，MatAnyone 显著提升了在复杂背景下的抠图稳定性。

面对真实训练数据的制约，「视频抠图」任务仍然像是在 “戴着镣铐跳舞”，当前的效果虽有显著突破，但仍有广阔的提升空间。未来，我们团队将继续探索更高效的训练策略、更泛化的数据构建方式，以及更通用的记忆建模机制，推动视频抠图技术在真实世界中实现更强鲁棒性与更广应用性。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.