网易首页 > 网易号 > 正文 申请入驻

北大开源首个针对视频编辑的新指标,与人类感知高度对齐|AAAI25

0
分享至

北京大学MMCAL团队 投稿量子位 | 公众号 QbitAI

视频生成模型卷得热火朝天,配套的视频评价标准自然也不能落后。

现在,北京大学MMCAL团队开发了首个用于视频编辑质量评估的新指标——VE-Bench,相关代码与预训练权重均已开源。

它重点关注了AI视频编辑中最常见的一个场景:视频编辑前后结果与原始视频之间的联系

例如,在“摘掉女孩的耳环”的任务中,需要保留人物ID,源视频与编辑结果应该有着较强语义相关性,而在“把女孩换为钢铁侠”这样的任务中,语义就明显发生了改变。

此外,它的数据还更加符合人类的主观感受,是一个有效的主观对齐量化指标

实验结果显示,与FastVQA、StableVQA、DOVER、VE-Bench QA等视频质量评价方法相比,VE-Bench QA取得了SOTA的人类感知对齐结果



这到底是怎么做到的呢?

简单来说,VE-Bench首先从原始视频收集、提示词收集、视频编辑方法、主观标注4个方面入手,构建了一个更加丰富的数据库VE-Bench DB

此外,团队还提出了创新的测试方法VE-Bench QA,将视频的整体效果分成了文字-目标一致性参考源与目标的关系技术畸变美学标准多个维度进行综合评价,比当前常用的CLIP分数等客观指标、PickScore等反映人类偏好的指标都更加全面。



相关论文已入选AAAI 2025(The Association for the Advancement of Artificial Intelligence)会议。



更丰富全面的数据库VE-Bench DB

原始视频收集

为了确保数据多样性,VE-Bench DB除了收集来自真实世界场景的视频,还包括CG渲染的内容以及基于文本生成的AIGC视频

数据来源包括公开数据集DAVIS、Kinetics-700、Sintel、Spring的视频,来自Sora和可灵的AIGC视频,以及来自互联网的补充视频。

来自互联网的视频包括极光、熔岩等常规数据集缺乏的场景。

所有视频都被调整为长边768像素,同时保持其原始宽高比。

由于目前主流视频编辑方法支持的长度限制,每段视频都被裁剪为32帧。

源视频的具体内容构成如下图所示,所有样本在收集时均通过人工筛选以保证内容的多样性并减少冗余:



VE-Bench原始视频构成。(a)视频来源 (b)视频类型 (c) 视频运动种类 (d) 视频内容种类

提示词收集

参考过往工作,VE-Bench将用于编辑的提示词分为3大类别:

  • 风格编辑(Style editing):包括对颜色、纹理或整体氛围的编辑。
  • 语义编辑(Semantic editing):包括背景编辑和局部编辑,例如对某一对象的添加、替换或移除。
  • 结构编辑(Structural editing):包括对象大小、姿态、动作等的变化。

针对每个类别,团队人工编写了相应的提示词,对应的词云与类别构成如下:



VE-Bench提示词构成。(a)词云 (b)提示词类型占比统计

编辑结果生成

VE-Bench选取了8种视频编辑方法。

这些方法包括早期的经典方法与近期较新的方法,涵盖从SD1.4~SD2.1的不同版本,包括需要微调的方法、0-shot的方法、和基于ControlNet、PnP等不同策略编辑的方法。

人类主观评价

在进行主观实验时,VE-Bench确保了每个视频样本均由24位受试者进行打分,符合ITU标准中15人以上的人数要求。

所参与受试者均在18岁以上,学历均在本科及以上,包括商学、工学、理学、法学等不同的背景,有独立的判断能力

在实验开始前,所有人会线下集中进行培训,并且会展示数据集之外的不同好坏的编辑例子。

测试时,受试者被要求根据其主观感受,并对以下几个方面进行综合评价:文本与视频的一致性、源视频与目标视频的相关度以及编辑后视频的质量,分数为十分制。

最后收集得到的不同模型平均得分的箱线图如下:



VE-Bench模型得分箱线图

其中,横坐标表示不同模型ID,纵坐标表示Z-score正则化后的MOS (Mean Opinion Score)分数。橘红色线条表示得分的中位数。

可以看出,当前的大多数文本驱动的视频编辑模型中位数得分普遍在5分左右浮动,少数模型的得分中位数可以达到近6分,部分模型的得分中位数不到4分。

模型得分最低分可以下探到不到2分,也有个别样本最高可以达到近9分。

具体每个样本在Z-score前后的得分直方图如下图所示,可以看出极高分和极低分仍在少数



VE-Bench模型得分直方图

在此基础上,团队进一步绘制了不同视频编辑模型在VE-Bench提示词上的表现



不同视频编辑模型在VE-Bench中不同类别的提示词上的表现

可以看出,目前的模型都相对较为擅长风格化指令,这可能是利用了SD在大量不同风格图片上训练的先验成果。

同时,删除指令相比于添加得分更低,因为它需要额外考虑物体或背景重建等问题,对模型语义理解与细粒度特征提取能力有更高要求。

现有模型都还不太擅长形状编辑。这方面FateZero模型表现较为优秀,这可能与它针对shape-aware提出的注意力混合方法有关。

从3个纬度进行评估的VE-Bench QA

在构建的VE-Bench DB的基础上,团队还提出了创新的VE-Bench QA训练方法,目标是得到与人类感知更加接近的分数

下面这张图展示了VE-Bench QA的主要框架:



VE-Bench QA从3个维度对文本驱动的视频编辑进行评估:

  • 文本-视频一致性

为了衡量所编辑视频是否与文本有关,VE-Bench QA基于BLIP进行了有效的视频-文本相关性建模,通过在BLIP视觉分支的基础上加入Temporal Adapter将其扩展到三维,并与文本分支的结果通过交叉注意力得到输出。

  • 源视频-编辑后视频动态相关性

为了更好建模随上下文动态变化的相关性关系,VE-Bench QA在该分支上通过时空Transformer将二者投影到高维空间,并在此基础上拼接后利用注意力机制计算二者相关性,最后通过回归计算得到相应输出。

  • 传统维度的视觉质量方面

VE-Bench QA参考了过往自然场景视频质量评价的优秀工作DOVER,通过在美学和失真方面预训练过后的骨干网络输出相应结果。

最终各个分支的输出通过线性层回归得到最终分数。

实验结果显示,VE-Bench QA在多个数据集上所预测的结果,其与真值的相关性得分都领先于其他方法:



VE-BenchQA在T2VQA-DB数据集上的结果



VE-Bench QA在VE-Bench DB数据集上的结果

论文链接:https://arxiv.org/abs/2408.11481
代码链接:https://github.com/littlespray/VE-Bench

北大开源首个针对视频编辑的新指标,与人类感知高度对齐|AAAI25

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
夫妻关系,性高于一切。

夫妻关系,性高于一切。

加油丁小文
2024-12-28 03:56:36
冯唐:不和底层人讲逻辑,不和中层人谈理想,不和上层人谈感情

冯唐:不和底层人讲逻辑,不和中层人谈理想,不和上层人谈感情

清风拂心
2024-12-27 15:15:03
一年奖金才6万刀,樊振东陈梦反抗霸王条款!名记呼吁刘国梁辞职

一年奖金才6万刀,樊振东陈梦反抗霸王条款!名记呼吁刘国梁辞职

中国足球的那些事儿
2024-12-27 16:24:49
陈戌源服刑监狱曝光,爆料人:不用干活,更像是没有自由的疗养!

陈戌源服刑监狱曝光,爆料人:不用干活,更像是没有自由的疗养!

十点街球体育
2024-12-27 11:14:49
朝鲜货币改革达成共同富裕!每户兑换15万新币,一举消灭腐败

朝鲜货币改革达成共同富裕!每户兑换15万新币,一举消灭腐败

大风文字
2024-12-27 15:52:56
美国国债总额突破36万亿美元,马斯克:要么解决问题,要么破产

美国国债总额突破36万亿美元,马斯克:要么解决问题,要么破产

环球网资讯
2024-12-27 18:56:13
1-0!阿森纳3连胜,升至英超第2,塔帅争冠仍遭怒批:不思进取!

1-0!阿森纳3连胜,升至英超第2,塔帅争冠仍遭怒批:不思进取!

风过乡
2024-12-28 07:14:05
最流氓实验:6男4女穿泳衣共度100天,没有法律约束,结果如何?

最流氓实验:6男4女穿泳衣共度100天,没有法律约束,结果如何?

橘子大娱社
2024-12-27 20:30:03
2024年中国生育率数据出炉:老百姓对“断绝香火”危机的冷漠!

2024年中国生育率数据出炉:老百姓对“断绝香火”危机的冷漠!

诗词中国
2024-12-27 13:25:22
张国钧,任上被查

张国钧,任上被查

新京报政事儿
2024-12-28 00:02:07
逛LV的门店,看到了这件毛衣,询问了价格,16万9000元。

逛LV的门店,看到了这件毛衣,询问了价格,16万9000元。

人情皆文史
2024-11-28 00:26:52
40分钟开庭审总统弹劾案 30分钟弹劾代总统 一文梳理韩国不寻常的一天

40分钟开庭审总统弹劾案 30分钟弹劾代总统 一文梳理韩国不寻常的一天

环球网资讯
2024-12-27 18:04:11
案件:北京一女教授在家养病长达10年,民警进门后,当场愣在原地

案件:北京一女教授在家养病长达10年,民警进门后,当场愣在原地

五元讲堂
2024-12-24 16:57:49
再见了,百度!自从会用AI搜索,我查资料再也没踩过雷!

再见了,百度!自从会用AI搜索,我查资料再也没踩过雷!

秋叶PPT
2024-12-25 08:20:28
珠海致35死案件嫌犯被判死刑!网友:这绝对是全国最快的死刑犯了

珠海致35死案件嫌犯被判死刑!网友:这绝对是全国最快的死刑犯了

火山诗话
2024-12-27 21:08:36
火箭资深自媒体:科比在2016年休斯敦告别战后亲自和费根致谢告别

火箭资深自媒体:科比在2016年休斯敦告别战后亲自和费根致谢告别

直播吧
2024-12-28 00:40:17
保留激光雷达是为了安全!理想汽车李想:如果马斯克在中国高速深夜开过车,特斯拉也会保留激光雷达【附激光雷达行业现状分析】

保留激光雷达是为了安全!理想汽车李想:如果马斯克在中国高速深夜开过车,特斯拉也会保留激光雷达【附激光雷达行业现状分析】

前瞻网
2024-12-27 17:56:16
阜阳五中袁宁老师去世,年仅41岁,学生透露死因,3月前还好好的

阜阳五中袁宁老师去世,年仅41岁,学生透露死因,3月前还好好的

180°视角
2024-12-27 20:08:30
网友:天啊!足浴店漂亮女技师一个月工资8万块,没有学历要求…

网友:天啊!足浴店漂亮女技师一个月工资8万块,没有学历要求…

火山诗话
2024-12-27 14:51:03
柯文哲交保3千万获释,回家“不到9小时” ,台北地检署提出抗告

柯文哲交保3千万获释,回家“不到9小时” ,台北地检署提出抗告

新时光点滴
2024-12-28 03:33:24
2024-12-28 08:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
9834文章数 175807关注度
往期回顾 全部

科技要闻

2024年,我国航天发射次数为何不及预期?

头条要闻

国务院考核巡查组内蒙古检查:剧毒危货运输企业存乱象

头条要闻

国务院考核巡查组内蒙古检查:剧毒危货运输企业存乱象

体育要闻

樊振东和陈梦,为什么不要世界排名了?

娱乐要闻

赵露思深夜坐轮椅就医,新剧被曝停拍

财经要闻

极越汽车败局 吉利控股撤退李书福接盘?

汽车要闻

李想:三个条件足够优秀 能做出苹果一样的公司

态度原创

时尚
手机
房产
数码
军事航空

谁说冬天不能穿裙子?这样穿又暖又美

手机要闻

未来公开课|李丰: 全球化是必然的规律,在以百年为单位的历史进程中从未停止过

房产要闻

猛!海南楼市持续回暖,三亚房价,突然上涨!

数码要闻

秒变游戏电脑!小米平板6S Pro内测3A游戏虚拟机

军事要闻

海军076两栖攻击舰首舰下水 命名为四川舰

无障碍浏览 进入关怀版