网易首页 > 网易号 > 正文 申请入驻

四川大学提出Test-time Adaptation新范式,突破查询偏移挑战

0
分享至




在 NeurIPS 2024 大会上,OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 在其主题报告中展望了基础模型的未来研究方向,其中包括了 Inference Time Compute [1],即增强模型在推理阶段的能力,这也是 OpenAI o1 和 o3 等核心项目的关键技术路径。

作为 Inference Time Compute 的重要方向之一,Test-time Adaptation(TTA)旨在使预训练模型动态适应推理阶段中不同分布类型的数据,能够有效提高神经网络模型的分布外泛化能力。

然而,当前 TTA 的应用场景仍存在较大局限性,主要集中在单模态任务中,如识别、分割等领域。

近日,四川大学 XLearning 团队将 TTA 拓展至跨模态检索任务中,有效缓解了查询偏移(Query Shift)挑战的负面影响,有望推动 Inference time compute 向跨模态应用发展。

目前,该论文已被机器学习国际顶会 ICLR 2025 接收并评选为 Spotlight(入选比例 5.1%)。



  • 论文题目:Test-time Adaptation for Cross-modal Retrieval with Query Shift
  • 论文地址:https://openreview.net/forum?id=BmG88rONaU
  • 项目地址:https://hbinli.github.io/TCR/

背景与挑战

跨模态检索旨在通过构建多模态共同空间来关联不同模态的数据,在搜索引擎、推荐系统等领域具有重要的应用价值。如图 1 (a) 所示,现有方法通常基于预训练模型来构建共同空间,并假设推理阶段的查询数据与训练数据分布一致。然而,如图 1 (b) 所示,在现实场景中,用户的查询往往具有高度个性化的特点,甚至可能涉及不常见的需求,导致查询偏移(Query Shift)挑战,即模型推理时查询数据与源域数据的分布显著不同。



图 1:(a) 主流范式:利用预训练模型 Zero-shot 检索或者 Fine-tune 后检索。(b) 导致查询偏移的原因:难以对数据稀缺的领域进行微调;即使微调模型,也会面临 “众口难调” 的问题。(c) 观察:查询偏移会降低模态内的均匀性和增大模态间的差异。

如图 1 (c) 所示,本文观察到,查询偏移不仅会破坏查询模态的均匀性(Modality Uniformity),使得模型难以区分多样化的查询,还会增大查询模态与候选模态间的差异(Modality Gap),破坏预训练模型构建的跨模态对齐关系。这两点都会导致预训练模型在推理阶段的性能急剧下降。

尽管 TTA 作为能够实时应对分布偏移的范式已取得显著成功,但现有方法仍无法有效应对查询偏移挑战。一方面,当前 TTA 范式面向单模态任务设计,无法有效应对查询偏移对模态内分布和模态间对齐关系的影响。另一方面,现有 TTA 方法主要应用于识别任务,无法应对检索任务中的高噪声现象,即候选项远大于类别数量会导致更大的错误几率。

主要贡献

针对上述挑战,本文提出了 TCR,贡献如下:

  • 从模态内分布和模态间差异两个层面,揭示了查询偏移导致检索性能下降的根本原因。
  • 将 TTA 范式扩展至跨模态检索领域,通过调整模态内分布、模态间差异以及缓解检索过程中的高噪声现象,实现查询偏移下的鲁棒跨模态检索。
  • 为跨模态检索 TTA 建立了统一的基准,涵盖 6 个广泛应用的数据集和 130 种风格各异、程度不同的模态损坏场景,支持包括 BLIP [2]、CLIP [3] 等主流预训练模型。

观察与方法

本文通过一系列的分析实验和方法设计,深入探究了查询偏移对公共空间的负面影响以及造成的高噪声现象,具体如下:



图 2:TCR 的框架图

1)挑战一:查询偏移对模态内和模态间的负面影响

为了进一步探究查询偏移对公共空间的负面影响,本文以一种 Untrain 的方式进行量化实验,即对推理阶段的数据特征如下变换:







图 3:模态内均匀性与模态间差异的观察

基于上述观察,本文提出了如下损失:





图 4:TTA 前后的特征分布





图 5:温度系数的消融实验



基准与实验

为了更好地研究查询偏移对跨模态检索任务的影响,本文提出以下两中评估方法:

  • 仅查询偏移:只有查询模态的分布与源域数据不同。依据 [5],在 COCO [6] 和 Flickr [7] 数据集上分别引入了 16 种图像损坏和 15 种文本损坏(按照不同严重程度共计 130 种损坏)。为了保证仅查询偏移,先让模型在对应数据集上进行微调,随后将微调后的模型应用于仅有查询偏移的推理数据集中。
  • 查询 - 候选偏移:查询模态和候选模态的分布都与源域数据不同。为了保证查询 - 候选偏移,本文直接将预训练模型应用于各领域的推理数据中,包括电商领域的 Fashion-Gen [8]、ReID 领域的 CUHK-PEDES [9] 和 ICFG-PEDES [10]、自然图像领域的 Nocaps [11] 等。

部分实验结果如下:

1)仅查询偏移



表 1:仅查询偏移下的性能比较

2)查询 - 候选偏移





表 3、4:查询 - 候选偏移下的性能比较

总结与展望

本文提出的 TCR 从模态内分布和模态间差异两个层面揭示了查询偏移对跨模态检索性能的负面影响,并进一步构建了跨模态检索 TTA 基准,为后续研究提供了实验观察和评估体系。

展望未来,随着基础模型的快速发展,TTA 有望在更复杂的跨模态场景(如 VQA 等)中发挥关键作用,推动基础模型从 "静态预训练" 迈向 "推理自适应" 的发展。

参考文献:

[1] Wojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, et al. Trading inference-time compute for adversarial robustness. arXiv preprint arXiv:2501.18841, 2025.

[2] Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. Blip: Bootstrapping language-image pretraining for unified vision-language understanding and generation. In ICML, 2022.

[3] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, 2021.

[4] Victor Weixin Liang, Yuhui Zhang, Yongchan Kwon, Serena Yeung, and James Y Zou. Mind the gap: Understanding the modality gap in multi-modal contrastive representation learning. In NeurIPS, 2022.

[5] Jielin Qiu, Yi Zhu, Xingjian Shi, Florian Wenzel, Zhiqiang Tang, Ding Zhao, Bo Li, and Mu Li. Benchmarking robustness of multimodal image-text models under distribution shift. Journal of Data-centric Machine Learning Research, 2023.

[6] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ´ ECCV, 2014.

[7] Bryan A Plummer, Liwei Wang, Chris M Cervantes, Juan C Caicedo, Julia Hockenmaier, and Svetlana Lazebnik. Flickr30k entities: Collecting region-to-phrase correspondences for richer imageto-sentence models. In ICCV, 2015.

[8] Negar Rostamzadeh, Seyedarian Hosseini, Thomas Boquet, Wojciech Stokowiec, Ying Zhang, Christian Jauvin, and Chris Pal. Fashion-gen: The generative fashion dataset and challenge. arXiv preprint arXiv:1806.08317, 2018.

[9] Shuang Li, Tong Xiao, Hongsheng Li, Bolei Zhou, Dayu Yue, and Xiaogang Wang. Person search with natural language description. In CVPR, 2017.

[10] Zefeng Ding, Changxing Ding, Zhiyin Shao, and Dacheng Tao. Semantically self-aligned network for text-to-image part-aware person re-identification. arXiv:2107.12666, 2021.

[11] Harsh Agrawal, Karan Desai, Yufei Wang, Xinlei Chen, Rishabh Jain, Mark Johnson, Dhruv Batra, Devi Parikh, Stefan Lee, and Peter Anderson. Nocaps: Novel object captioning at scale. In CVPR, 2019.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

想与顶级AI人才互动?来和机器之心一起共赴这4场全球学术顶会

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
为什么香港富豪的半山别墅,下面都有一个“高台”?

为什么香港富豪的半山别墅,下面都有一个“高台”?

良有方
2025-03-18 22:26:07
士为知己者死!拜仁队长续约无签字费不加薪,要求竟是孔帕尼留任

士为知己者死!拜仁队长续约无签字费不加薪,要求竟是孔帕尼留任

里芃芃体育
2025-03-19 07:36:38
实拍广州荔湾区逢源路现状,要不是亲眼看到,这画面很难相信

实拍广州荔湾区逢源路现状,要不是亲眼看到,这画面很难相信

冬天来旅游
2025-03-19 05:15:39
4-0!3-0!亚洲第四太狠了,5战印尼不败,赢球=助攻国足争4出线

4-0!3-0!亚洲第四太狠了,5战印尼不败,赢球=助攻国足争4出线

侃球熊弟
2025-03-19 00:00:09
5000亿遗产暗战!徐子淇豪门地位遭挑战,周秀娜手握三张底牌破局

5000亿遗产暗战!徐子淇豪门地位遭挑战,周秀娜手握三张底牌破局

吾爱纪实
2025-03-18 16:58:59
台湾同胞幽默喊话解放军,对开战提了九个要求,节假日不能出兵

台湾同胞幽默喊话解放军,对开战提了九个要求,节假日不能出兵

车马点兵V
2025-03-13 22:38:01
力挺李嘉诚!郎咸平把自己架到火上烤,如今骑虎难下,摊上大事了

力挺李嘉诚!郎咸平把自己架到火上烤,如今骑虎难下,摊上大事了

葡萄说娱
2025-03-18 14:09:36
仅仅3集热度破21000!全网0差评,观众:“看完一集抓心挠肝!”

仅仅3集热度破21000!全网0差评,观众:“看完一集抓心挠肝!”

明月聊史
2025-03-18 21:11:11
王楚钦家中变故,其实早就有迹象了

王楚钦家中变故,其实早就有迹象了

十点街球体育
2025-03-18 23:30:03
大事件:关于李嘉诚旗下集团被中国政府调查一事,外交部回应

大事件:关于李嘉诚旗下集团被中国政府调查一事,外交部回应

沧海一书客
2025-03-18 21:49:09
暴跌21℃!雨雨雨雨雨雨!江西天气又要大反转

暴跌21℃!雨雨雨雨雨雨!江西天气又要大反转

鲁中晨报
2025-03-19 07:12:15
隔空互怼后小米交出史上最强年报:营收接近格力2倍,空调出货量超680万台,同比增速超50%

隔空互怼后小米交出史上最强年报:营收接近格力2倍,空调出货量超680万台,同比增速超50%

金融界
2025-03-18 20:11:06
太惨了!2月SUV销量完整版,ModeIY丢冠,锋兰达第6,问界M9第42

太惨了!2月SUV销量完整版,ModeIY丢冠,锋兰达第6,问界M9第42

爱论历史
2025-03-18 22:25:05
台岛四周发生激烈对峙,台北上空乱成一团!美军根本来不及协防

台岛四周发生激烈对峙,台北上空乱成一团!美军根本来不及协防

橘色密码
2025-03-18 12:32:42
南京男子回家迫不及待抱住妻子,结果家中鹦鹉一开口,让他崩溃!

南京男子回家迫不及待抱住妻子,结果家中鹦鹉一开口,让他崩溃!

白云故事
2025-03-14 19:05:07
游戏开发商是把盗版玩家往死的整,多少人心态崩了

游戏开发商是把盗版玩家往死的整,多少人心态崩了

街机时代
2025-03-17 15:00:03
炸裂!女子家中出轨不认账,丈夫带兄弟搜寻,小三躲床下瑟瑟发抖

炸裂!女子家中出轨不认账,丈夫带兄弟搜寻,小三躲床下瑟瑟发抖

娜乌和西卡
2025-03-18 23:27:49
离职前拷贝涉密资料、设计推理“谍战剧本” 起底“精心”策划的间谍案

离职前拷贝涉密资料、设计推理“谍战剧本” 起底“精心”策划的间谍案

环球网资讯
2025-03-19 07:10:11
一枚导弹命中航母!64架舰载机被毁,造成298人伤亡母直接瘫痪!

一枚导弹命中航母!64架舰载机被毁,造成298人伤亡母直接瘫痪!

猫眼观史
2024-12-30 14:01:11
中年夫妻的“性压抑”,被戚薇、李承铉当众戳破,胡静的反应亮了

中年夫妻的“性压抑”,被戚薇、李承铉当众戳破,胡静的反应亮了

头号剧委会
2025-03-18 18:36:49
2025-03-19 10:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
10229文章数 142262关注度
往期回顾 全部

科技要闻

黄仁勋甩出三代AI芯片!DeepSeek成大赢家

头条要闻

李嘉诚卖港口有人忧美想让中国船"无处可靠" 专家回应

体育要闻

曾击败德约的亚洲一哥,现在咋样了?

娱乐要闻

胡杏儿老公撇下妻儿夜店嗨玩,与多名美女搂抱

财经要闻

卖港口给美国财团 李嘉诚深陷舆论风暴

汽车要闻

百万像素车语大灯首上车 享界S9增程版解读

态度原创

手机
时尚
本地
房产
公开课

手机要闻

取代高通!曝iPhone 18 Pro首发苹果C2基带

过来人总结的瀑布发量秘诀,20岁到50+岁都受用

本地新闻

一万次的春和景明,是过敏人的限定地狱

房产要闻

猛!海棠湾又一重磅名校,规划曝光!

公开课

李玫瑾:为什么性格比能力更重要?