人-物交互(HOI)检测对于以人为中心的场景理解任务非常重要。现有的研究倾向于假设同一个动词在不同的HOI类别中具有相似的视觉特征,这种方法忽略了动词的不同语义。为了解决这个问题,在本文中,京东探索研究院和华南理工大学的研究者提出了一种新的多义解码网络(PD-Net),它以三种不同的方式对动词的视觉多义进行解码,以提升HOI的检测性能。
文章: https://link.springer.com/article/10.1007/s11263-021-01458-8 代码: https://github.com/MuchHair/PDNet
一、研究背景
HOI检测不仅包括识别图像中对象的类别和位置,还包括每个人-物对之间的交互(动词)。如图1所示,人-物对之间的交互可以由三元组表示,这里称为一个HOI类别。一对人-物可以包括多个三元组,比如 < person fly airplane > 和 < person ride airplane >。
图1 HOI检测中反映动词多义问题的实例
HOI检测任务极具挑战性。一个主要原因是动词可以是多义的。如图1所示,由于不同物体可能具有不同的功能和属性,动词可以传达实质上不同的语义和视觉信息。在图1a、b中可以找到示例;< person play football > 中“脚”是人体中更具辨别力的部分,而“手”在描述 < person play frisbee > 时更为重要。第二个示例在图1c、d中,尽管它们被标记为同一动词,却呈现截然不同的人-物空间特征。另一个更严重的情况是同一类型的视觉特征可能会因相关联的物体类型发生变化。例如,人体姿势在图1e中描述 < person fly kite > 时起着至关重要的作用;相比之下,人体姿势在图1f中是看不见的,因此对描述图1f中的 < person fly airplane > 毫无用处。综上可知,动词一词多义对HOI检测提出了重大挑战。
二、方法原理阐述
为了解决具有挑战性的动词多义问题,我们提出了一种新的多义词破译网络(PD-Net),如图2所示,PD-Net网络首先将每个人-物对的多标签动词分类转换为一组二分类问题。这里每个二分类器用于验证一个动词类别;分类器共享其大部分参数;主要区别在于输入特征。接下来,我们从以下三个方面来缓解动词多义问题。
图2 多标签分类转化为二分类
首先,我们提出两个新模块让输入的视觉特征具有多义感知性,即语言先验引导通道注意(LPCA)和基于语言先验的特征增强(LPFA)。这里的语言先验是由一个动词的词向量和物体的词向量组合而成的。物体是由目标检测器(如Faster R-CNN)预测的;动词是由特定的动词二分类器决定的。如图3所示,LPCA适用于人和物体的外观特征。这两种特征通常是冗余的,因为一个特定的HOI类别只涉及其部分信息(见图1)。
因此,我们设计LPCA来突出外观特征中的重要元素;LPCA的结构如图4所示。另外,人-物空间和人姿势特征对于同一动词,通常是模糊的,可以有很大的变化,如图1a-d所示;因此,我们提出了LPFA,它将这两个特性分别与语言先验串联起来。通过这种方式,分类器可以接收到提示以识别同一动词在姿势和空间上的类内变异特征。
此外,我们进一步设计了一个新的多义感知模式融合模块(PAMF),该模块基于上述语言先验知识生成注意分数,以动态融合多种特征类型(如图3所示)。比如,当先验语言为“fly kite”(图1e)时,人类姿势特征是有区别的,但当先验语言为“fly plane”(图1f)时,人类姿势特征不太有用。因此,我们提出的PAMF通过强调对每个HOI类别更重要的特征来破译动词多义问题。
最后,我们提出了一种新的动词分类器——基于聚类的特定对象动词分类器,来进一步解决动词多义性问题。我们主要的动机是确保包含相同动词的语义相似的HOI类别,例如 < person hold cow > 和 < person hold elephant > 可以共享相同的动词分类器。语义上非常不同的HOI(例如 < person hold book > 和 < person hold backpack >)使用另一个动词分类器识别。部分动词的HOI聚类结果如图5所示。
三、实验结果
1. 消融实验
为了证明PD-Net中每个组件的有效性,我们在HICO-DET数据库上进行了消融研究,从表1可看出我们提出的每个模块都能带来提升。
为了进一步证明CSP分类器的优势,我们将其性能与常用的SH和SP分类器进行了比较, 实验结果如表2所示,CSP分类器在稀有和非稀有HOI类别上都具有优异的性能。这是由于相同的动词量词被分配到语义相似的HOI类别,使得少训练样本的HOI与有足够训练数据的HOI共享分类器。同时对于语义不同的HOI类别,采用了不同的动词量词,这有助于克服动词多义问题。
在表3中, 我们比较了LPCA在不同设置下(w/o Sau, w/o Catt, D[LA, FA])的实验结果, 同时比较了LPCA与现有注意力机制的性能(Plain CA, FiLM),这些实验结果进一步验证了LPCA的有效性。
2. 与现有方法比较
在表4-6中,我们分别在两个流行的HOI数据集HICO-DET和V-COCO, 以及本文构建的HOI-VP数据集上,比较了PD-Net与现有方法的性能,从实验结果可知PD-Net性能领先于现有方法。
四、结语
动词多义问题的研究相对较少有时甚至在现有的HOI检测中被忽略。因此,在本文中,我们提出了一种新的模型PD-Net, 从三个不同方面来解决动词多义问题。PD-Net包含了4个部分:LPCA、LPFA、PAMF、CSP; 在实验中我们充分验证了这些方法的有效性,同时PD-Net也在3个HOI检测的数据集上大幅领先现有方法。
本文授权转自:京东探索研究院
Illustrastion by Pablo from Icons8
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,
对用户启发更大的文章,做原创性内容奖励。
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
>> 投稿请添加工作人员微信!
关于我“门”
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
⤵一键送你进入TechBeat快乐星球
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.