网易首页 > 网易号 > 正文 申请入驻

突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA

0
分享至

HolmesVAD团队 投稿
量子位 | 公众号 QbitAI

大模型当上福尔摩斯,学会对视频异常进行检测了。

来自华中科技大学、百度、密歇根大学的研究团队,提出了一种可解释性的视频异常检测框架,名为Holmes-VAD

Holmes-VAD不仅能给出精确的视频异常定位,还能够对检测到的异常提供解释和分析。

比如,给它看一段监控视频,询问它视频中是否有任何异常迹象,它立马就能识别出:

有异常,一辆白色面包车正在路上行驶,突然一辆摩托车出现并撞上了面包车,造成了一起严重的事故。

爆炸场景也不在话下:

视频显示在沙漠地区发生了一次大规模爆炸,导致大量烟尘飘到空中。这是异常的,因为在自然环境中,如此突然和强烈的能量释放是一种意料之外且不寻常的事件。

像是打篮球互相追逐竞争这样婶儿的具有迷惑性的视频,它也能正确识别并作出解释:

视频中展示的是一场典型的篮球比赛,球员们在一个维护良好的球场上比赛。这是一个常见且熟悉的体育赛事场景,没有任何不寻常或可疑的活动。

Holmes-VAD基于视频多模态大模型微调,并利用精确的时序监督和丰富的多模态指令来实现准确的异常定位和全面的解释,在监控视频安全分析、视频生成内容检验等领域具有广泛应用前景。

在定量和定性实验中,Holmes-VAD在多方面的表现优于此前SOTA方法。

除此外,研究团队还首次引入了视频异常检测领域的大规模多模态指令数据集——VAD-Instruct50k

那么,Holmes-VAD、VAD-Instruct50k长啥样?

用数据引擎构建大规模数据集

首先,研究团队构建了首个大规模多模态VAD指令微调数据集,VAD-Instruct50k。

该数据集使用半自动数据引擎创建

△数据引擎流程图

主要包括下列步骤:

时序单帧标注

研究团队采用了一种高效的时间注释方法,即标注涉异常事件中的随机单帧,用该方法来减小注释成本,利于扩大标注视频的数量。

事件片段生成

基于单帧注释,团队设计了一种可靠的伪帧级标签生成方法,对于每个具有单帧注释G = {gi}的异常视频及其由训练好的VAD网络估算的异常评分,在注释帧周围生成多个异常事件提议,对于正常视频,也随机提取若干正常事件提议。

完成此过程后,收集所有带有异常标签的剪辑事件片段:E={si, ei, yi},其中如果事件片段来自异常视频,则yi设置为视频的异常类别(例如,爆炸),否则设置为正常。

事件片段描述

为了充分提取事件片段中的语义信息,研究人员利用基于视频的多模态大型语言模型(MLLM)为每个事件片段生成详细的描述。

还包括Surveillance Vision数据集,该数据集为UCF-Crime视频片段提供了手动注释的详细细粒度事件描述。结合这些资源后,获得了所有带有相应描述和异常标签的事件片段:E={si, ei, yi, ci}。

异常对话生成

研究人员将异常标签和事件片段描述作为视频的文本信息,并设计丰富的异常内容提问,如:“Are there any unexpected or unusual events in the video clip?”。

将它们输入到大语言模型中进行分析回答,得到“视频-提问-回答”的指令对,最后对质量低下的指令对进行筛查过滤。

提出可解释视频异常检测框架

为实现开放世界的视频异常检测(VAD),现有的方法在面对具有挑战性或未见过的事件时往往表现出偏见,并且不能对异常内容作出解释。

基于VAD-Instruct50k,研究团队设计了一种可解释视频异常检测框架Holmes-VAD。

△HolmesVAD网络框架

其由下列部分组成:

视觉编码器

研究团队利用LanguageBind中冻结的视频编码器,该编码器继承了CLIP的ViT-L/14结构,称之为ϕv。

与原始的ViT不同,它通过在时间维度上添加自注意力层来建模帧之间的时间关系。

时序采样器

由于视频中大量视觉tokens导致的过度计算负担,过去基于视频的MLLM方法采用了视频的均匀时间帧采样,例如8帧。

研究团队认为这种方法显然不适用于视频异常检测任务中的长视频,因为它增加了忽略关键信息的概率。

为了解决这个问题,团队首先利用VAD网络评估每帧的异常分数,该网络接收视频帧的cls token并输出异常分数:

然后,根据异常分数对视频标记进行采样。

具体来说,只有对应异常分数高于设定阈值的帧对应的tokens会被输入到LLM中,通过这种方式,模型可以对长视频做出高效响应。

LLM

为了使LLM理解视觉编码器输出的特征,在它们之间设计了一个由两层MLP组成的projector,与LLM的输入维度对齐,团队使用Vicuna作为LLM。

效果如何?

在训练过程中,时序上的单帧异常标注被用于训练时间采样器来选择具有高异常响应的帧,数据集中的异常相关对话内容被用于微调多模态大语言模型(MLLM)来生成解释性内容。

研究人员进行了大量定量和定性实验分析,结果验证了所提出的Holmes-VAD的通用性和可解释性。

定量评估方面,研究人员将本文方法与最先进的方法进行了比较,包括半监督方法、无监督方法、弱监督方法和最近的Training-Free方法。

下表1中列出了它们的骨干网络、监督方法以及在UCF-Crime和XD-Violence数据集上的表现。

Holmes-VAD方法在XD-Violence上的AP为90.67%,在UCF-Crime上的AUC为89.51%,显著超越了之前的最先进方法,证明了该方法可以生成更少偏见的异常评分。

△表1.视频异常检测性能比较

值得一提的是,Holmes-VAD实现了精确的异常定位的同时,还能够对模型检测到的异常提供解释和分析,这是现有不可解释的VAD方法所不具备的功能。

虽然LAVAD具有可解释性,但由于缺乏足够的监督数据,这种无训练的大型语言模型对异常知识的理解有限。

此外,研究人员还进行了用户研究,通过86个测试样本和10名志愿者评估了三种不同的训练策略:

  • 无训练:不进行微调;
  • Projector:在VAD-Instruct50k上进行微调,仅训练投影器,而保持多模态LLM固定;
  • Projector+LoRA:在VAD-Instruct50k上进行微调,训练投影器并使用LoRA 微调多模态LLM。

如表2所示,投影器+LoRA提供了最详细的响应(平均46.13个词)并达到了最高的判断准确率(86.0%)。

此外,它在内容感知和异常解释方面也达到了最高的投票率,分别为61.2%和51.9%。

△表2.不同微调策略的影响

定性结果方面,研究人员将Holmes-VAD的可解释性结果与Video-LLaVA(未经过微调)进行比较。正确和错误的解释分别用绿色和红色表示。

结果表明,Holmes-VAD能够准确识别视频中的异常,并为体育比赛中的冲突、爆炸和车载摄像头捕捉到的事故(异常案例)提供具体解释。

即使是对于正常视频,Holmes-VAD也展现出强大的分析能力,纠正了时间采样器的错误响应(正常案例)。这些发现突显了Holmes-VAD在感知视频事件和分析异常方面的有效性和优势。

项目主页:https://holmesvad.github.io/
论文地址:https://arxiv.org/abs/2406.12235

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
塞尔维亚或迎巨变,数万民众涌上首都街头,武契奇十年统治恐终结

塞尔维亚或迎巨变,数万民众涌上首都街头,武契奇十年统治恐终结

近史博览
2026-05-25 01:28:35
北京豪华阵容恐解散!外援一个不留,赵睿或被送走,许利民下课

北京豪华阵容恐解散!外援一个不留,赵睿或被送走,许利民下课

林子说事
2026-05-26 09:38:57
马科斯启程了,这是他第四次去日本,日方对外称“规格给够”

马科斯启程了,这是他第四次去日本,日方对外称“规格给够”

清衣渡a
2026-05-26 22:10:35
《歌手》前导演洪涛回应庾澄庆被淘汰,无法理喻,艺人没得到保护

《歌手》前导演洪涛回应庾澄庆被淘汰,无法理喻,艺人没得到保护

话娱论影
2026-05-25 10:05:19
俄罗斯两兄弟:孤身对抗俄军装甲纵队,双双追授“乌克兰英雄”

俄罗斯两兄弟:孤身对抗俄军装甲纵队,双双追授“乌克兰英雄”

鹰眼Defence
2026-05-26 18:06:16
不忍了?郑丽文启程去美国找靠山,大陆用两句话戳破“和平”伪装

不忍了?郑丽文启程去美国找靠山,大陆用两句话戳破“和平”伪装

锅锅爱历史
2026-05-25 16:49:19
0-4横扫出局,3-4爆冷惜败!东部最大的伪强队,四巨头也该散伙了

0-4横扫出局,3-4爆冷惜败!东部最大的伪强队,四巨头也该散伙了

篮球扫地僧
2026-05-26 08:57:52
皇马900万回购意甲顶流!两周内搞定,无视国米近6000万挖角

皇马900万回购意甲顶流!两周内搞定,无视国米近6000万挖角

仰卧撑FTUer
2026-05-26 20:05:03
上海G1胜广厦!盛赞古德温,京媒提广厦调整能力,苏群点上海大外

上海G1胜广厦!盛赞古德温,京媒提广厦调整能力,苏群点上海大外

篮球资讯达人
2026-05-26 22:16:30
“发给父母的相亲照能逆天到啥程度??”哈哈哈哈哈好一个艺高人胆大!!

“发给父母的相亲照能逆天到啥程度??”哈哈哈哈哈好一个艺高人胆大!!

脆皮先生
2026-05-26 20:22:19
“靠老公养,月薪三万,不用带娃”,两年前全网羡慕的那个全职主妇,现状让人唏嘘不已

“靠老公养,月薪三万,不用带娃”,两年前全网羡慕的那个全职主妇,现状让人唏嘘不已

橙子说说咱家娃
2026-04-29 08:10:38
美军鱼鹰落地委内瑞拉,代理总统大开城门,忘记马杜罗被绑之痛

美军鱼鹰落地委内瑞拉,代理总统大开城门,忘记马杜罗被绑之痛

章幃户外
2026-05-25 18:33:20
离开广东宏远后,他重返清华攻读硕士,如今已是中山大学男篮教练

离开广东宏远后,他重返清华攻读硕士,如今已是中山大学男篮教练

米果说识
2026-05-26 19:33:59
交了智商税才明白:这4种家电一定要买贵的,没钱干脆先不买

交了智商税才明白:这4种家电一定要买贵的,没钱干脆先不买

装修秀
2026-05-21 21:07:00
【德国】抓了一对华裔夫妻,说是帮中国偷军事技术,本来可能只想赚小钱...

【德国】抓了一对华裔夫妻,说是帮中国偷军事技术,本来可能只想赚小钱...

鲁晓芙看欧洲
2026-05-25 20:37:17
战后情报体系迎来重塑 日本新情报统筹机构敲定七月启用

战后情报体系迎来重塑 日本新情报统筹机构敲定七月启用

舆图司马
2026-05-25 21:00:03
属虎人,5月28-30日家里将有人离开,别哭!是老天帮你清除负担

属虎人,5月28-30日家里将有人离开,别哭!是老天帮你清除负担

白浅娱乐聊
2026-05-26 20:43:46
周鸿祎评马斯克“十年后人类不开车”预言:重点不是驾照,而是AI要接管物理世界

周鸿祎评马斯克“十年后人类不开车”预言:重点不是驾照,而是AI要接管物理世界

TechWeb
2026-05-25 10:00:50
中方亲自颁授勋章,1米98的武契奇喜极而泣,身家性命有了保障

中方亲自颁授勋章,1米98的武契奇喜极而泣,身家性命有了保障

一口娱乐
2026-05-26 14:31:45
新加坡到底在害怕什么?

新加坡到底在害怕什么?

智先生
2026-05-25 21:59:53
2026-05-26 23:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
12689文章数 176471关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

留神峪煤矿"暗面"矿工发声:遇检查时矿上就提前封堵

头条要闻

留神峪煤矿"暗面"矿工发声:遇检查时矿上就提前封堵

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

旅游
房产
教育
手机
军事航空

旅游要闻

句容一景区通知:暂停开放

房产要闻

招商地产接盘碧桂园!海口这个烂尾豪宅,要彻底改命?

教育要闻

教育的最高境界就是把孩子培养成幸福的普通人。

手机要闻

OPPO Reno16 Pro体验:把实况照片玩出新高度

军事要闻

美伊在阿巴斯港附近短暂交火 交战过程披露

无障碍浏览 进入关怀版