网易首页 > 网易号 > 正文 申请入驻

黑掉大模型?恶意 Prompt 攻击成无解之谜?

0
分享至



作者:Atone,混元安全防守团队成员

随着大模型应用的逐步发展,出现了一种新型的攻击手法,它的隐蔽性强且难以检测。本文将探讨如何有效检测此类攻击,并在实际战场中的有所成效。
一、新的安全战场

由于大模型独有的对话业务特性:通过大量的数据训练,学会了从用户输入的 Prompt 中理解和生成语言。恶意 Prompt 攻击正在成为新的安全威胁战场。

攻击者可以通过精心设计的恶意 Prompt 来操纵模型行为,进而诱导模型调用插件产生错误的输出、执行恶意命令或泄露各类敏感信息,这种恶意 Prompt 攻击的隐蔽性极强,且通过传统的安全检测能力难以察觉。


(图1:大模型时代下面临的安全威胁分类)

以下简单列举几个典型案例,由恶意 Prompt 攻击引发的大模型安全事件:

1.1 借助大模型“黑掉”你的电脑

近期,某海外大厂发布了前沿大模型的新功能 —— “Computer Use“ ,这是一个可以让大模型控制计算机的神奇能力。它通过截取屏幕截图来做出决策,可以运行 bash 命令、控制鼠标键盘等操作,听起来很神奇吧?但同时也带来了很大的安全隐患,那就是恶意 Prompt 攻击。

只需要准备好三样东西就可以黑掉你的电脑。接下来我们来看一下黑客是如何借助大模型实现的:

1、 准备好 C2 Server(黑客控制的服务器)、恶意文件、下载页面(让大模型下载木马文件);

2、 诱导大模型模仿正常用户,点击下载恶意文件;

3、 利用大模型查找、修改权限以运行恶意文件;

4、 用户电脑在大模型的帮助下成功“上线”(被黑客获取机器权限)。


(图2:绕过某大模型产品的应用层限制,诱导模型下载恶意文件)



(图4:大模型在本地查找并运行恶意文件)


(图5:用户电脑被黑客远程控制并查看目录)

1.2 “唾手可得”服务器权限

黑客通过 Prompt 注入 + 代码变形 + 字符串编码拼接等攻击手法组合利用,成功绕过应用层的限制,从而让大模型应用在后端容器中执行任意代码或者命令,拿到对应服务器权限。


(图6:绕过某大模型产品的对话层限制,成功执行系统命令)


(图7:利用某大模型产品工作流,成功获取云服务凭证)

1.3 “手到擒来” 用户隐私数据

黑客通过散布含有恶意配置的钓鱼 URL 或文件,利用大模型的长期记忆(Memory Update)功能漏洞,植入虚假记忆或恶意指令。用户在对话中触发这些链接或文件后,其对话内容会被恶意配置,导致后续对话记录被拼接成 Markdown 图片链接泄露到外部URL,从而实现对用户隐私的窃取。


(图8:某大模型产品泄露用户对话数据)


(图9:某大模型产品泄露用户对话数据)

二、新战场的布防 2.1 大模型方案的优势

传统Web应用防火墙(WAF)因其局限性,无法理解自然语义的目的,导致真实攻击事件频频漏检,难以应对新型威胁,比如恶意用户在进行攻击测试,由于 Prompt 的内容未命中WAF正则关键词,导致该攻击被识别成正常请求,未被拦截。


( 图10:真实攻击漏报事件)

基于行业内三种通用解决方案进行不同方案优劣势进行对比, 发现在检测外部恶意 Prompt 攻击场景下,大模型在泛化能力、检出效果、维护成本上均优于另外两个方案,详细情况如下表:

可选方案

基于大语言模型

基于传统机器学习引擎

基于正则引擎

方案说明

基于大模型海量知识底座,利用Prompt调优进行恶意攻击场景泛化识别。

利用机器学习算法对大量的正常和恶意流量进行分析,从而自动学习并识别恶意流量模式,然后对流量进行分类和阻止。

基于专家经验针对各种攻击类型提炼的特征编写正则,对流量进行正则特征匹配检测。

方案优点

维护成本低

有安全知识基础

场景泛化能力极强

无需规则维护

能够自我学习,一定程度可以应对未知威胁

开发成本较低

方案缺点

偶尔存在模型幻觉、分析结论不稳定情况

对数据量和质量要求较高,不同攻击类型需要单独训练,泛化能力较差,误报率较高

正则维护繁琐,且检测模式单一,无法应对未知威胁

检测效果

维护效率

泛化能力

⭐️⭐️⭐️⭐️

⭐️⭐️⭐️⭐️

⭐️⭐️⭐️⭐️⭐️

⭐️⭐️

⭐️⭐️

⭐️⭐️

⭐️⭐️


2.2 大模型 Cosplay 派对侦探

通过聚类分析恶意攻击样本和拦截日志,发现恶意 Prompt 攻击的核心场景在于:如何深入分析提问者的提问实际场景与提问意图。而大模型在这个分析场景下存在天然的优势(超强推理能力、语言理解能力),当仁不让的成为了安全运营分析的最佳助手。

借鉴过往经验设计了一个更有性价比的流程。想象一下,在一个派对上,你要辨别哪些宾客可能是不受欢迎的捣蛋鬼,那么的流程如下:

1)首先,用一份“不受欢迎名单”筛选出可疑人物,初步过滤掉正常行为的来宾。(恶意攻击特征初筛)

2)接着你请来一位侦探朋友,他凭借出色的观察力和理解力,进一步识别出潜在的麻烦制造者。(大模型检测)

3)最后,只有侦探依然怀疑是捣蛋鬼的宾客,才需要你亲自处理。(人工研判处置)


(图11:恶意 Prompt 检测分析流程)

这个过程就像一个漏斗,逐步筛选出捣蛋鬼。但有时侦探也会粗心大意,所以你会使用一些策略和行为标签来提高他的准确性,确保派对顺利且尽可能少的出问题。

同样的,也可以通过黑白样本多维度验证,结合提示词工程(Prompt Engineering)以及通用攻击子场景归类拆分,以帮助这位侦探更好地识别出恶意的捣蛋鬼。具体包括:

1)通用攻击场景拆分:根据现网样本日志,划分六大类场景,细化 30+ 攻击子场景,让大模型利用其语义理解能力和网络安全知识储备,快速判断用户行为并根据场景归类打标。

2)Prompt Engineering:通过构造 Prompt 来引导大模型如何进行打标和分类。若发现大模型识别错误、子场景描述模糊或是不准确的情况,通过对大模型的回答内容的分析,反哺运营同学对子场景精细化定义与阐释,闭环场景分类的优化。

除此之外,为应对复杂 Prompt 的人工审核漏判/误判问题,引入大模型辅助安全运营,自主识别并提供解释,配合人工快速复核。同时,利用企业微信机器人来推送恶意 Prompt 至群内,便于运营人员迅速研判和处理。


2.3 老生常谈的沙箱加固

随着各种功能丰富的插件以及工作流的引入,一种常见的攻击方式是通过恶意 Prompt 来调用大模型运行恶意代码,通过插件实现服务器入侵,直接威胁到用户数据以及业务敏感文件。


( 图12:某大模型产品遭受 Prompt 攻击泄露内部云账号密码)

因此,除了前端恶意 Prompt 的检测,后端的组件加固也十分重要。通过容器加固后,能实现网络、多用户隔离及容器逃逸防护,确保用户代码执行环境与业务环境完全隔离,实现较为安全的代码执行环境。

三、总结

恶意 Prompt 攻击仅仅是大模型时代安全挑战的冰山一角。安全从业人员面临的不仅是技术难题,更是一场持久的安全攻防战。

安全不是一蹴而就的工程,而是一个需要持续投入、不断更新的过程。我们要正视当前的挑战,同时也要未雨绸缪,为未来可能出现的新型威胁做好准备。

这条安全之路没有终点,期待与诸位同僚一起,不断前行。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一晚一万九,中国女网红、女主播被BBC扒光了!

一晚一万九,中国女网红、女主播被BBC扒光了!

书画艺术收藏
2024-11-25 20:00:02
普京发言人:冲突已变成“俄罗斯和北约之间的战争”

普京发言人:冲突已变成“俄罗斯和北约之间的战争”

参考消息
2024-11-26 10:39:11
主席形象后继有人,王仁君已接班唐国强,和古月比你更喜欢哪一个

主席形象后继有人,王仁君已接班唐国强,和古月比你更喜欢哪一个

醉饮前山
2024-11-26 09:02:16
崔晓健,赴任海南

崔晓健,赴任海南

新京报政事儿
2024-11-26 14:49:25
娱乐圈里最干净的女人,年近40,生了两个娃,还嫩如少女……

娱乐圈里最干净的女人,年近40,生了两个娃,还嫩如少女……

新浪财经
2024-10-26 12:14:06
内讧爆发!直接宣布退队!八村塁硬刚主教练

内讧爆发!直接宣布退队!八村塁硬刚主教练

篮球教学论坛
2024-11-26 11:35:14
特斯拉杀疯了!5000元不到的两轮电动车,小电动车市场要变天了!

特斯拉杀疯了!5000元不到的两轮电动车,小电动车市场要变天了!

猫小狸同学
2024-11-26 12:30:02
被普京政府说中了:美日绝密计划曝光,五角大楼已为中国选好战场

被普京政府说中了:美日绝密计划曝光,五角大楼已为中国选好战场

千里持剑
2024-11-25 13:47:25
“擦边”博主吴柳芳一夜涨粉百万,曾经是体操冠军,身高仅1米45

“擦边”博主吴柳芳一夜涨粉百万,曾经是体操冠军,身高仅1米45

比利
2024-11-24 18:34:44
美联储降息,11月26日,今日凌晨的三大消息全面来袭!

美联储降息,11月26日,今日凌晨的三大消息全面来袭!

风口招财猪
2024-11-26 01:50:03
红四方复牌后涨幅进一步扩大至1200%

红四方复牌后涨幅进一步扩大至1200%

每日经济新闻
2024-11-26 10:23:11
S-400防空系统被ATACMS导弹摧毁,造成8人死亡,包括5名俄军军官

S-400防空系统被ATACMS导弹摧毁,造成8人死亡,包括5名俄军军官

山河路口
2024-11-25 20:12:57
董宇辉离开4个月,东方小孙大气复出,东方甄选股价大涨9%

董宇辉离开4个月,东方小孙大气复出,东方甄选股价大涨9%

壹号股权
2024-11-25 18:58:25
什么样的男人一眼看上去很穷?网友总结分析很到位,让人茅塞顿开

什么样的男人一眼看上去很穷?网友总结分析很到位,让人茅塞顿开

奇特短尾矮袋鼠
2024-11-26 11:49:17
上海餐饮消费券火热,部分商家核销不易、规则烧脑引网友吐槽?专家这样建议

上海餐饮消费券火热,部分商家核销不易、规则烧脑引网友吐槽?专家这样建议

东方网
2024-11-26 09:44:06
湖北省委决定:周勇士履新职

湖北省委决定:周勇士履新职

健身狂人
2024-11-26 12:36:26
笑麻了!河北33岁剩女,吐槽父母介绍的全是丑男,网友笑晕在厕所

笑麻了!河北33岁剩女,吐槽父母介绍的全是丑男,网友笑晕在厕所

猫小狸同学
2024-11-25 15:40:03
希洛:出生就身价百万,继承朱莉和皮特的超高颜值,从小美到大

希洛:出生就身价百万,继承朱莉和皮特的超高颜值,从小美到大

名人庄
2024-11-25 20:11:19
一觉醒来,女子肚皮撕掉一块!又是这个“神器”惹的祸,医生提醒:几乎年年都有

一觉醒来,女子肚皮撕掉一块!又是这个“神器”惹的祸,医生提醒:几乎年年都有

鲁中晨报
2024-11-26 15:05:06
陈佩斯与妹妹一家同框,外甥女像舅,66岁妹夫“赵子龙”不逊当年

陈佩斯与妹妹一家同框,外甥女像舅,66岁妹夫“赵子龙”不逊当年

探寻者
2024-11-26 09:12:43
2024-11-26 15:31:00
腾讯技术工程
腾讯技术工程
不止于技术
1197文章数 600关注度
往期回顾 全部

科技要闻

瑞银:跨国汽车公司在华产能冗余达千万辆

头条要闻

媒体:加拿大懵了 想抛开墨西哥却同成特朗普关税目标

头条要闻

媒体:加拿大懵了 想抛开墨西哥却同成特朗普关税目标

体育要闻

37岁,他用“半条右腿”重返巅峰

娱乐要闻

分手复合又打胎,黄晓明说希望是一场梦

财经要闻

洪灏刘煜辉对谈实录 涉及A股、债务等!

汽车要闻

入华10年 林肯用宋锦将美式豪华“中国化”

态度原创

艺术
游戏
时尚
本地
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

你会入手吗?调查显示超7成粉丝对PS掌机有兴趣

今冬穿“奶甜风”的女生们,等着被夸吧!

本地新闻

城市24小时|领跑万亿城市,武汉“开挂”了?

军事要闻

新中导“榛树”亮相 俄乌都面临难题

无障碍浏览 进入关怀版