港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025|样本|鲁棒性|cvpr|客户端节点|anyattack

港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025

2025-04-21 19:51:03　来源: AI科技评论

广东举报

分享至

大规模预训练攻击框架 Any Attack 无需预设标签，即可将普通图像转化为有目标的有目标对抗样本。

作者丨张家明

近年来，视觉语言模型（Vision-Language Models, VLMs）在多模态 AI 领域展现了重要的研究价值和应用潜力，但其安全性问题也逐渐受到关注。例如，攻击者可能通过对抗样本操控模型输出，导致模型生成错误信息或内容被篡改等风险。传统对抗攻击方法因依赖预设标签，难以适应大规模数据场景，因此其威胁范围相对有限。

针对这一问题，来自香港科技大学、北京交通大学、复旦大学、新加坡管理大学等机构的学者联合提出了一种新的大规模预训练攻击框架AnyAttack，通过设计的创新自监督学习任务，在LAION-400M数据集上完成了对攻击噪声生成器的大规模预训练。基于预训练的攻击生成器，攻击者可以针对任何下游任务，微调生成指向任何目标图像的对抗噪声。该框架能够在无需预设标签的情况下，将普通图像转化为有目标的有目标对抗样本，从而有效测试和评估大规模VLM模型的鲁棒性。相关研究成果已被计算机视觉领域顶级会议 CVPR 2025 收录。

论文标题：《AnyAttack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models》

论文地址： https://arxiv.org/abs/2410.05346

项目主页：

https://jiamingzhang94.github.io/anyattack/

图1.上：现有攻击方法依赖标签监督信息；

下：AnyAttack框架不依赖标签完成大规模自监督预训练。

实际意义

传统的有目标对抗攻击方法通常依赖预定义标签，这在一定程度上限制了其可扩展性和实际应用范围。相比之下，AnyAttack通过在LAION-400M数据集上进行大规模预训练（图1），摆脱了对标签监督的依赖，从而显著提升了攻击的灵活性和适应性。这一方法使任何一张图像都能被转化为对抗攻击，并能误导VLM生成特定目标输出，为VLM鲁棒性研究提供了新的工具和方法。

图2. AnyAttack框架：自监督对抗噪声预训练阶段（上）和自监督对抗噪声微调阶段（下）。

攻击框架介绍

如图2所示，AnyAttack是一个两阶段自监督学习框架：

自监督对抗噪声预训练：AnyAttack框架的核心创新在于其自监督预训练机制。研究团队设计了一种全新的训练范式，将对抗攻击转化为自监督学习问题。在预训练阶段，框架使用冻结的图像编码器从输入图像中提取嵌入向量，这些标准化的嵌入向量随后被送入解码器网络，生成对应的对抗噪声。研究者期待所生成的对抗噪声加在任意的图像上所组成的对抗图像都会被VLMs识别为输入图像，这形成了一种自监督的训练模型，即以输入图像本身为监督来引导生成对抗噪声。具体来说，在一个batch中给定一个样本作为输入图像，则该batch中其余的样本皆为该样本的负样本，研究者根据这种正负样本对的关系来构建了对比损失。为了提升对抗噪声的泛化能力，研究者还引入了创新的K-增强策略，该策略在每个batch内创建了多个随机打乱版本的干净图像。换言之，所得到的对抗噪声被加在不同的干净图像上都应当被VLMs识别为输入图像，这增加了正样本的构建方式，这种设计使得对抗噪声更加通用，实现了“任意图像→任意目标输出”的灵活攻击能力，而不依赖于特定的图像内容或标签信息，从而提升了任意性和迁移性。

实验结果

成功攻击开源模型

研究团队对AnyAttack进行了全面评估，在CLIP、BLIP、BLIP2、InstructBLIP和MiniGPT-4五个开源模型上的评估证明了其在开源和商业视觉-语言模型上的可迁移性和有效性。图3给出了具体的示例。在CLIP模型上，攻击成功率（Retrieval）比表现最好的基线方法提升了17.33个百分点；在BLIP、BLIP2、InstructBLIP和MiniGPT-4模型上的Image Captioning任务分别提升了0.6, 3.8, 8.5和2.5（CIDEr）。

图3. AnyAttack成功攻击开源视觉语言模型

CLIP、BLIP、BLIP2、InstructBLIP和MiniGPT-4

成功迁移攻击商业模型

更令人担忧的是，尽管商业系统通常具有更强大的安全措施，AnyAttack仍然表现出令人瞩目的迁移能力，成功操纵了Google Gemini、Claude Sonnet、Microsoft Copilot和OpenAI GPT等商业VLMs。图4给出了具体的示例。通过调用Gemini 1.5 Flash和GPT-4o mini的API进行了量化实验，测试了100张图像，攻击成功率分别达到了31%和38%，分别超过基线方法26%和10%。

图4. AnyAttack成功迁移攻击商业视觉语言模型

Google Gemini、Claude Sonnet、Microsoft Copilot和OpenAI GPT

总结

本研究工作揭示了视觉语言大模型生态系统中存在的系统性安全风险。实验结果表明，即使模型基于不同的数据集和架构进行训练，其防御机制在面对自监督攻击方法时，仍表现出显著的跨模型迁移脆弱性。研究团队开源了基于LAION-400M预训练的对抗噪声生成器，该工具通过单次前向传播即可生成有目标对抗样本，相比基于梯度的传统攻击方法，攻击效率有明显优势，可以用来评测视觉语言模型的鲁棒性。