网易首页 > 网易号 > 正文 申请入驻

黑掉大模型?恶意 Prompt 攻击成无解之谜?

0
分享至



作者:Atone,混元安全防守团队成员

随着大模型应用的逐步发展,出现了一种新型的攻击手法,它的隐蔽性强且难以检测。本文将探讨如何有效检测此类攻击,并在实际战场中的有所成效。
一、新的安全战场

由于大模型独有的对话业务特性:通过大量的数据训练,学会了从用户输入的 Prompt 中理解和生成语言。恶意 Prompt 攻击正在成为新的安全威胁战场。

攻击者可以通过精心设计的恶意 Prompt 来操纵模型行为,进而诱导模型调用插件产生错误的输出、执行恶意命令或泄露各类敏感信息,这种恶意 Prompt 攻击的隐蔽性极强,且通过传统的安全检测能力难以察觉。


(图1:大模型时代下面临的安全威胁分类)

以下简单列举几个典型案例,由恶意 Prompt 攻击引发的大模型安全事件:

1.1 借助大模型“黑掉”你的电脑

近期,某海外大厂发布了前沿大模型的新功能 —— “Computer Use“ ,这是一个可以让大模型控制计算机的神奇能力。它通过截取屏幕截图来做出决策,可以运行 bash 命令、控制鼠标键盘等操作,听起来很神奇吧?但同时也带来了很大的安全隐患,那就是恶意 Prompt 攻击。

只需要准备好三样东西就可以黑掉你的电脑。接下来我们来看一下黑客是如何借助大模型实现的:

1、 准备好 C2 Server(黑客控制的服务器)、恶意文件、下载页面(让大模型下载木马文件);

2、 诱导大模型模仿正常用户,点击下载恶意文件;

3、 利用大模型查找、修改权限以运行恶意文件;

4、 用户电脑在大模型的帮助下成功“上线”(被黑客获取机器权限)。


(图2:绕过某大模型产品的应用层限制,诱导模型下载恶意文件)



(图4:大模型在本地查找并运行恶意文件)


(图5:用户电脑被黑客远程控制并查看目录)

1.2 “唾手可得”服务器权限

黑客通过 Prompt 注入 + 代码变形 + 字符串编码拼接等攻击手法组合利用,成功绕过应用层的限制,从而让大模型应用在后端容器中执行任意代码或者命令,拿到对应服务器权限。


(图6:绕过某大模型产品的对话层限制,成功执行系统命令)


(图7:利用某大模型产品工作流,成功获取云服务凭证)

1.3 “手到擒来” 用户隐私数据

黑客通过散布含有恶意配置的钓鱼 URL 或文件,利用大模型的长期记忆(Memory Update)功能漏洞,植入虚假记忆或恶意指令。用户在对话中触发这些链接或文件后,其对话内容会被恶意配置,导致后续对话记录被拼接成 Markdown 图片链接泄露到外部URL,从而实现对用户隐私的窃取。


(图8:某大模型产品泄露用户对话数据)


(图9:某大模型产品泄露用户对话数据)

二、新战场的布防 2.1 大模型方案的优势

传统Web应用防火墙(WAF)因其局限性,无法理解自然语义的目的,导致真实攻击事件频频漏检,难以应对新型威胁,比如恶意用户在进行攻击测试,由于 Prompt 的内容未命中WAF正则关键词,导致该攻击被识别成正常请求,未被拦截。


( 图10:真实攻击漏报事件)

基于行业内三种通用解决方案进行不同方案优劣势进行对比, 发现在检测外部恶意 Prompt 攻击场景下,大模型在泛化能力、检出效果、维护成本上均优于另外两个方案,详细情况如下表:

可选方案

基于大语言模型

基于传统机器学习引擎

基于正则引擎

方案说明

基于大模型海量知识底座,利用Prompt调优进行恶意攻击场景泛化识别。

利用机器学习算法对大量的正常和恶意流量进行分析,从而自动学习并识别恶意流量模式,然后对流量进行分类和阻止。

基于专家经验针对各种攻击类型提炼的特征编写正则,对流量进行正则特征匹配检测。

方案优点

维护成本低

有安全知识基础

场景泛化能力极强

无需规则维护

能够自我学习,一定程度可以应对未知威胁

开发成本较低

方案缺点

偶尔存在模型幻觉、分析结论不稳定情况

对数据量和质量要求较高,不同攻击类型需要单独训练,泛化能力较差,误报率较高

正则维护繁琐,且检测模式单一,无法应对未知威胁

检测效果

维护效率

泛化能力

⭐️⭐️⭐️⭐️

⭐️⭐️⭐️⭐️

⭐️⭐️⭐️⭐️⭐️

⭐️⭐️

⭐️⭐️

⭐️⭐️

⭐️⭐️


2.2 大模型 Cosplay 派对侦探

通过聚类分析恶意攻击样本和拦截日志,发现恶意 Prompt 攻击的核心场景在于:如何深入分析提问者的提问实际场景与提问意图。而大模型在这个分析场景下存在天然的优势(超强推理能力、语言理解能力),当仁不让的成为了安全运营分析的最佳助手。

借鉴过往经验设计了一个更有性价比的流程。想象一下,在一个派对上,你要辨别哪些宾客可能是不受欢迎的捣蛋鬼,那么的流程如下:

1)首先,用一份“不受欢迎名单”筛选出可疑人物,初步过滤掉正常行为的来宾。(恶意攻击特征初筛)

2)接着你请来一位侦探朋友,他凭借出色的观察力和理解力,进一步识别出潜在的麻烦制造者。(大模型检测)

3)最后,只有侦探依然怀疑是捣蛋鬼的宾客,才需要你亲自处理。(人工研判处置)


(图11:恶意 Prompt 检测分析流程)

这个过程就像一个漏斗,逐步筛选出捣蛋鬼。但有时侦探也会粗心大意,所以你会使用一些策略和行为标签来提高他的准确性,确保派对顺利且尽可能少的出问题。

同样的,也可以通过黑白样本多维度验证,结合提示词工程(Prompt Engineering)以及通用攻击子场景归类拆分,以帮助这位侦探更好地识别出恶意的捣蛋鬼。具体包括:

1)通用攻击场景拆分:根据现网样本日志,划分六大类场景,细化 30+ 攻击子场景,让大模型利用其语义理解能力和网络安全知识储备,快速判断用户行为并根据场景归类打标。

2)Prompt Engineering:通过构造 Prompt 来引导大模型如何进行打标和分类。若发现大模型识别错误、子场景描述模糊或是不准确的情况,通过对大模型的回答内容的分析,反哺运营同学对子场景精细化定义与阐释,闭环场景分类的优化。

除此之外,为应对复杂 Prompt 的人工审核漏判/误判问题,引入大模型辅助安全运营,自主识别并提供解释,配合人工快速复核。同时,利用企业微信机器人来推送恶意 Prompt 至群内,便于运营人员迅速研判和处理。


2.3 老生常谈的沙箱加固

随着各种功能丰富的插件以及工作流的引入,一种常见的攻击方式是通过恶意 Prompt 来调用大模型运行恶意代码,通过插件实现服务器入侵,直接威胁到用户数据以及业务敏感文件。


( 图12:某大模型产品遭受 Prompt 攻击泄露内部云账号密码)

因此,除了前端恶意 Prompt 的检测,后端的组件加固也十分重要。通过容器加固后,能实现网络、多用户隔离及容器逃逸防护,确保用户代码执行环境与业务环境完全隔离,实现较为安全的代码执行环境。

三、总结

恶意 Prompt 攻击仅仅是大模型时代安全挑战的冰山一角。安全从业人员面临的不仅是技术难题,更是一场持久的安全攻防战。

安全不是一蹴而就的工程,而是一个需要持续投入、不断更新的过程。我们要正视当前的挑战,同时也要未雨绸缪,为未来可能出现的新型威胁做好准备。

这条安全之路没有终点,期待与诸位同僚一起,不断前行。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
系故意抹黑!比亚迪李云飞回应巴西劳工风波,员工“红手印”表态

系故意抹黑!比亚迪李云飞回应巴西劳工风波,员工“红手印”表态

二向箔
2024-12-26 18:37:13
网友曝朋友到莫斯科,发现接待中国人的酒店里,出现中文版“无人机逃生指南”

网友曝朋友到莫斯科,发现接待中国人的酒店里,出现中文版“无人机逃生指南”

西游日记
2024-12-26 19:08:24
舔狗经济崩盘,院线自作自受,电影就此烂了

舔狗经济崩盘,院线自作自受,电影就此烂了

闲人电影
2024-12-26 20:08:01
在美国活过来的TikTok,却把中国卖家薅得只剩下了裤衩

在美国活过来的TikTok,却把中国卖家薅得只剩下了裤衩

派大星纪录片
2024-12-26 15:49:38
刘芸生日和郑钧现场撒糖,黄圣依带儿子安麟到场,安麟长得像哥哥

刘芸生日和郑钧现场撒糖,黄圣依带儿子安麟到场,安麟长得像哥哥

笑谈历史阿晡
2024-12-26 22:33:25
43岁希尔顿发照庆圣诞,仅用蝴蝶结遮掩关键部位,尺度大胆惹争议

43岁希尔顿发照庆圣诞,仅用蝴蝶结遮掩关键部位,尺度大胆惹争议

南城无双
2024-12-27 00:57:11
2025年开始,医保看病迎来大变,DRG模式是啥意思?有啥好处?

2025年开始,医保看病迎来大变,DRG模式是啥意思?有啥好处?

阿伧说事
2024-12-26 15:20:07
女子做裸体‬SPA被偷拍,不打码发到朋友圈,老板娘:为了宣传

女子做裸体‬SPA被偷拍,不打码发到朋友圈,老板娘:为了宣传

鋭娱之乐
2024-12-26 13:47:58
创人类壮举!美探测器平安夜“触摸”太阳,火凤凰诞生

创人类壮举!美探测器平安夜“触摸”太阳,火凤凰诞生

华人生活网
2024-12-26 12:14:27
未寄出的生日信:朝鲜士兵遗体中的手写信揭露俄乌前线残酷现实

未寄出的生日信:朝鲜士兵遗体中的手写信揭露俄乌前线残酷现实

白宸侃片
2024-12-26 11:06:01
有远见的母亲,会提醒女儿:如果不婚不育,先想好4个问题

有远见的母亲,会提醒女儿:如果不婚不育,先想好4个问题

布衣粗食68
2024-12-26 14:30:40
谁在给中国电影工业钉上棺材板?

谁在给中国电影工业钉上棺材板?

新潮沉思录
2024-12-26 11:23:35
养老金好消息!各地养老金计发基数陆续公布:北京退休人员乐了!

养老金好消息!各地养老金计发基数陆续公布:北京退休人员乐了!

乌娱子酱
2024-12-26 15:49:21
少吃这类肉,可以降低癌症风险

少吃这类肉,可以降低癌症风险

医药养生保健报社
2024-12-23 16:26:15
长荣这次恐怕真要和大家说拜拜了!

长荣这次恐怕真要和大家说拜拜了!

安安说
2024-12-27 00:19:55
柯文哲遭起诉求刑28年半 中国国民党、民进党表态

柯文哲遭起诉求刑28年半 中国国民党、民进党表态

环球网资讯
2024-12-26 19:29:08
金正恩对于朝鲜军队在库尔斯克的惨败非常愤怒,损失高达1000多人

金正恩对于朝鲜军队在库尔斯克的惨败非常愤怒,损失高达1000多人

环球热点快评
2024-12-24 11:36:19
江苏凯迪拉克女销售私吞客户购车款后续:本人已被拘留,4S店发声

江苏凯迪拉克女销售私吞客户购车款后续:本人已被拘留,4S店发声

老鹈爱历史
2024-12-26 11:43:27
坠机事件谜团待解,哈萨克斯坦官员回应“遭袭”说法:仅凭照片便作出结论是炒作

坠机事件谜团待解,哈萨克斯坦官员回应“遭袭”说法:仅凭照片便作出结论是炒作

红星新闻
2024-12-26 19:20:48
官宣!欧洲豪门正式换帅,执教仅1个月就下课,新帅博尔热斯上任

官宣!欧洲豪门正式换帅,执教仅1个月就下课,新帅博尔热斯上任

球场没跑道
2024-12-26 17:30:36
2024-12-27 06:48:49
腾讯技术工程
腾讯技术工程
不止于技术
1213文章数 600关注度
往期回顾 全部

科技要闻

小米正搭建GPU万卡集群,大力投入AI大模型

头条要闻

5名中国游客在挪威大巴车祸中受轻伤

头条要闻

5名中国游客在挪威大巴车祸中受轻伤

体育要闻

再见,中超最后的超级巨星

娱乐要闻

57岁王祖贤分享近照,状态太好又被质疑整容

财经要闻

69亿订单"消失",卓然股份隐藏了什么?

汽车要闻

新物种iCAR V23的“尤里卡时刻”

态度原创

教育
游戏
艺术
公开课
军事航空

教育要闻

附加题全班都栽了,老师说这题对四年级来说太难了

《饿狼传说 City of the Wolves》制作人专访:狼之复苏"/> 主站 商城 论坛 自运营 登录 注册 《饿狼传说 City of the ...

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中方批菲防长涉华言论出格荒唐

无障碍浏览 进入关怀版