网易首页 > 网易号 > 正文 申请入驻

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

0
分享至

USAIL团队 投稿
量子位 | 公众号 QbitAI

全新大语言模型越狱攻击基准与评估体系来了。

来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。

提出攻击分析系统性框架JailTrackBench

JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响,包括攻击者的能力、预算、对抗性后缀长度,以及模型的大小、安全对齐情况、系统提示和模板类型。

其研究成果《Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs》现已被NeurIPS D&B 2024接收。

此外,为了全面解决大语言模型的越狱问题,USAIL团队不仅专注于攻击,还深入探讨了越狱评估这一核心问题。

越狱分析JailTrackBench

近年来,随着人工智能的迅速发展,尤其是大语言模型(LLMs)的广泛应用,保障模型的安全性并防止其被恶意利用,已成为一个重要的议题。越狱攻击通过恶意指令诱导模型生成有害或不道德的内容,对模型的安全性和可靠性构成了严峻挑战。

这种攻击与防御的博弈,极大地推动了大模型安全性的提升。

在这一背景下,香港科技大学(Guangzhou)USAIL研究团队从攻击者和防御者的角度,探讨了影响大模型安全性的关键因素。

尽管已有研究揭示了多种越狱攻击的威胁,现有的评估方法往往过于片面,无法全面涵盖攻击与防御两方面的核心因素。

为此,团队提出了JailTrackBench,一个全面涵盖越狱攻击各个方面的系统性基准测试框架,旨在为研究人员提供一个标准化、全面的评估工具。

△图1 JailTrackBench框架

通过对七种具有代表性的越狱攻击和六种防御方法的320项实验,使用50,000 GPU小时,团队以标准化的方式评估了这些攻击方法的效果。

目标模型层面

模型大小(Model Size)

实验(如图2所示)中选择了不同规模的模型(如Llama-7B、Llama-13B、Llama-70B,Qwen1.5-14B等)进行对比,探讨模型规模对越狱攻击的防御能力是否有显著影响。

实验结果表明,模型的鲁棒性并不与其规模成正比,较大的模型并不总是比较小的模型更具防御能力。

△图2 模型大小与鲁棒性的关系

安全对齐情况(Safety Alignment):

模型的安全能力会被后续的大模型微调所影响。

实验表明(如图3所示),经过领域类的微调(fine-tuning)大模型,其安全能力会降低,相比之前没有微调的模型则更容易受到攻击。

△图3 安全对齐情况与模型鲁棒性

系统提示(System Prompt)

实验(如图4所示)还评估了系统提示(如包含安全提示的系统消息)对模型安全性的影响。结果显示,包含安全提示的系统消息能够显著增强模型的安全性,减少攻击成功率。

△图表 4 系统提示与模型类型

模板类型(Template Type)

实验(如图5所示)测试了不同提示模板(如零样本提示与默认提示)对越狱攻击成功率的影响。结果显示,使用默认提示的模型比使用零样本提示的模型更加安全。

△图5 模版类型与模型鲁棒

攻击者层面

攻击者能力(Attacker Ability)

攻击者(如图6所示)使用不同的模型(如GPT-3.5、GPT-4、Vicuna-13B等)来生成对抗性提示,实验评估了不同攻击者模型能力对越狱攻击成功率的影响。结果表明,攻击者模型越强,越狱攻击的成功率越高。

△图6 攻击者能力与攻击效果

对抗性后缀长度(Adversarial Suffix Length)

在针对令牌级别的越狱攻击中,实验(如图7所示)通过调整对抗性后缀的长度(如10、20、30等)来评估其对攻击成功率的影响。结果表明,较长的对抗性后缀通常能提高攻击成功率,但超过一定长度后效果趋于平稳。

△图7 对抗性后缀长度与攻击效果

攻击者预算(Attacker Budget)

实验(如图8和9所示)探讨了攻击者可以提交的查询次数对攻击效果的影响。实验表明,对于令牌级别的攻击,攻击预算越大,攻击成功率越高;而对于提示级别的攻击,预算的影响则较为有限。

△图8 指令级别攻击的预算

△图9 提示级别攻击的预算

攻击意图(Attack Intention)

实验(如图10所示)设计了多种不同的攻击意图(如隐私侵犯、恶意软件等)来评估其对攻击成功率的影响。结果表明,不同的攻击意图会显著影响攻击的成功率,某些攻击意图(如经济损害)更容易成功,而其他意图(如隐私侵犯)则较难得逞。

△图10 攻击者意图

通过对一些不易察觉的设置进行简单调整(见表1),包括攻击者和目标模型,研究发现大模型越狱攻击的成功率可以从0%飙升至惊人的90%(如图11所示)。这些设置涵盖了多个关键因素,如目标模型的规模、安全对齐方式、系统提示的使用,以及攻击者的能力和攻击预算。

△表格1:不同技巧组合的配置,从弱到强(weak to strong)

△图11 不同技巧组合对越狱攻击成功率的显著影响

越狱评估JAILJUDGE

越狱评估依赖于对模型输出内容的有害性进行分析,这一任务复杂且充满不确定性(见图12)。因此,迫切需要一种系统化的评估方法,帮助研究者和开发者深入了解模型的脆弱性,并持续优化其防御能力。

JAILJUDGE,在此背景下应运而生的。

由USAIL团队联合百度搜索团队及英国伯明翰大学共同提出,JAILJUDGE旨在弥补现有越狱评估工具的不足,尤其是应对复杂场景下的挑战。

该评估框架涵盖广泛的风险场景,如对抗性越狱查询、真实世界交互以及多语言环境等。JAILJUDGE的核心创新是引入了多Agent越狱评估框架,借鉴法庭审判的模式,通过多个Agent的协作,实现对越狱判断过程的明确化和可解释性。

每个Agent(如判断Agent、投票Agent和推断Agent)分工明确,通过协作得出精确的评估结果,并提供解释性理由。

△图12:越狱评估:输入用户问题和模型回答,判断大模型是否被越狱

为进一步提高评估效率,USAIL团队开发了JAILJUDGE Guard,这是一种端到端的越狱评估模型,不需要API调用即可提供细粒度的越狱评分(评分范围从1到10),并伴随推理解释。

JAILJUDGE Guard不仅在评估精度上超越了现有的顶级模型(如GPT-4和Llama-Guard),还在闭源和开源安全模型上展现了强大的评估能力,同时具备更高的效率和更低的成本。

此外,团队还推出了JailBoost和GuardShield两大工具,以强化越狱攻击和防御。实验表明,JailBoost在零样本设置下将攻击成功率提高了约29.24%,而GuardShield则将防御后的攻击成功率从40.46%大幅降低至0.15%。

未来,团队计划进一步扩展JAILJUDGE的功能和应用场景,包括:

  • 动态场景测试:扩展数据集,增加更多动态和实时的越狱攻击场景,以模拟实际应用中的复杂环境,提升评估的代表性。
  • 跨领域应用:将JAILJUDGE应用于医疗、金融等关键行业,评估并保障这些领域中LLMs的安全性。
  • 多模态扩展:探索多模态数据的越狱评估,结合文本、图像、音频等多种数据类型,全面评估LLMs在多模态环境下的安全表现。
  • 协作防御机制:开发基于多Agent的协作防御机制,使模型在面对复杂攻击时能够自适应进行防御,进一步提升整体安全性。

项目网站:https://secure-intelligence.github.io/
团队链接:https://github.com/usail-hkust

JailTrackBench
论文地址:https://arxiv.org/pdf/2406.09324
代码:https://github.com/usail-hkust/Bag_of_Tricks_for_LLM_Jailbreaking
JAILJUDGE
论文地址:https://arxiv.org/abs/2410.12855
项目主页:https://usail-hkust.github.io/Jailjudge
代码:https://github.com/usail-hkust/Jailjudge
数据集:https://huggingface.co/usail-hkust/JailJudge-guard
端到端越狱评估模型:https://huggingface.co/usail-hkust/JailJudge-guard

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
又一个万亿赛道!算力、存储之后轮到它

又一个万亿赛道!算力、存储之后轮到它

钱眼
2026-06-02 20:34:14
武统、和统都没望了?台湾军事专家:中国大陆已然走上了第三条路

武统、和统都没望了?台湾军事专家:中国大陆已然走上了第三条路

此去经年q
2026-06-01 20:29:17
宁德时代官宣钠电池将量产,钠电池有何优劣?会取代锂电池吗?

宁德时代官宣钠电池将量产,钠电池有何优劣?会取代锂电池吗?

之乎者也小鱼儿
2026-06-01 16:19:25
中组部明确:这八类人员列入公务员范围!

中组部明确:这八类人员列入公务员范围!

微法官
2026-06-02 08:55:27
王晓晨俞灏明被曝就医,王晓晨街边抽烟,全程眉头紧锁,神色焦灼

王晓晨俞灏明被曝就医,王晓晨街边抽烟,全程眉头紧锁,神色焦灼

韩小娱
2026-06-02 15:22:29
「生男生女不随机」,再添新证!哈佛连发两篇:母亲孕前压力大,生男孩的概率跌13%;29岁后生育,后代“性别扎堆”概率高13%

「生男生女不随机」,再添新证!哈佛连发两篇:母亲孕前压力大,生男孩的概率跌13%;29岁后生育,后代“性别扎堆”概率高13%

梅斯医学
2026-06-01 07:55:21
活久见!深圳45岁男子卖房剩1600万,回老家建墅、存下千万吃息

活久见!深圳45岁男子卖房剩1600万,回老家建墅、存下千万吃息

火山詩话
2026-06-01 09:44:58
换了5台车才明白:家用车最没用的,就是车企吹爆的这6个“配置”

换了5台车才明白:家用车最没用的,就是车企吹爆的这6个“配置”

周哥一影视
2026-06-01 13:33:05
39分+38分+35分!联盟第1!布伦森逆天改命,若夺冠地位能超尤因

39分+38分+35分!联盟第1!布伦森逆天改命,若夺冠地位能超尤因

世界体育圈
2026-06-02 20:16:33
金·卡戴珊高调官宣!与新欢骑车自拍尖叫翻车

金·卡戴珊高调官宣!与新欢骑车自拍尖叫翻车

热搜摘要官
2026-06-03 00:11:50
卡鲁索生涯合同盘点,第一份54万,如今8100万,逆袭娶超模太幸福

卡鲁索生涯合同盘点,第一份54万,如今8100万,逆袭娶超模太幸福

大西体育
2026-06-01 20:20:49
法网女单太残酷了:随着斯维托丽娜1-2出局,世界前十仅剩2人

法网女单太残酷了:随着斯维托丽娜1-2出局,世界前十仅剩2人

侧身凌空斩
2026-06-02 20:28:22
原来他就是奚梦瑶前男友,曾是全球身价最高男模,如今36岁仍单身

原来他就是奚梦瑶前男友,曾是全球身价最高男模,如今36岁仍单身

白面书誏
2026-06-02 21:04:14
今天起,不工作取消福利,洛杉矶数十万人受影响

今天起,不工作取消福利,洛杉矶数十万人受影响

大洛杉矶LA
2026-06-02 05:14:44
赖昌星前妻近状曝光:拒绝政府安置,独居3000平老宅,只做一件事

赖昌星前妻近状曝光:拒绝政府安置,独居3000平老宅,只做一件事

人生录
2026-06-01 13:52:39
西媒:民调显示弗洛伦蒂诺支持率77.3%,连任优势明显

西媒:民调显示弗洛伦蒂诺支持率77.3%,连任优势明显

懂球帝
2026-06-02 05:54:21
再见,杨瀚森,8换1或去雄鹿

再见,杨瀚森,8换1或去雄鹿

体育新角度
2026-06-02 19:59:18
铭记这一刻,巴黎球迷将加布里埃尔踢飞点球的瞬间纹在小腿上

铭记这一刻,巴黎球迷将加布里埃尔踢飞点球的瞬间纹在小腿上

懂球帝
2026-06-02 11:14:56
普京亮剑!下达立陶宛“灭国”警告,不到24小时,立总统紧急灭火

普京亮剑!下达立陶宛“灭国”警告,不到24小时,立总统紧急灭火

快看张同学
2026-06-02 22:55:11
“真是物以类聚!”3个女孩无视高考日期晒美照,网友绷不住了

“真是物以类聚!”3个女孩无视高考日期晒美照,网友绷不住了

蝴蝶花雨话教育
2026-06-01 00:05:07
2026-06-03 01:15:00
量子位 incentive-icons
量子位
追踪人工智能动态
12731文章数 176476关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

嫉妒前女友入职银行 男子入室杀人:你只不过长得漂亮

头条要闻

嫉妒前女友入职银行 男子入室杀人:你只不过长得漂亮

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

游戏
教育
手机
本地
公开课

离发售不远了!《寂静岭》系列新作已公开游戏评级

教育要闻

孩子短视频素养怎么培育?

手机要闻

华为畅享100 Pro Max被曝立项:代号叶问,真的要打十个了!

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版