网易首页 > 网易号 > 正文 申请入驻

研究人员利用LLM聊天机器人破解其他聊天机器人

0
分享至

新加坡南洋理工大学的计算机科学家们近日成功入侵了多个人工智能(AI)聊天机器人,包括ChatGPT、谷歌Bard和微软必应聊天机器人,生成了所谓的“越狱”(即破解)内容。

“越狱”是计算机安全领域的一个术语,指计算机黑客发现并利用系统软件中的缺陷,让软件执行其开发者有意限制它执行的一些操作。

此外,通过使用提示数据库训练大语言模型(LLM)——这些提示已经被证明可以成功破解这些聊天机器人。研究人员创建了一个LLM聊天机器人,能够自动生成进一步的提示以破解其他聊天机器人。

LLM构成了人工智能聊天机器人的大脑,使它们能够处理人类输入的一些内容,并生成与人类几乎相同的文本,这包括完成如规划旅行行程、讲述睡前故事以及开发计算机代码之类的任务。

南洋理工大学研究人员的研究工作增加了“越狱”这项任务。他们的发现这项任务的结果可能对帮助公司企业意识到LLM聊天机器人的弱点和局限性至关重要。清楚到弱点之后它们就可以采取措施,加强防范黑客的工作。

研究人员对LLM进行了一系列概念验证测试,以证明他们采用的技术的确对LLM构成了明确而实际的威胁,发起成功的越狱攻击后,立即向相关服务提供商报告了问题。

图1. 越狱攻击示例

目前,LLM聊天机器人在日常使用中广受欢迎。开发者已经设置了护栏机制,以防止人工智能生成暴力、不道德或犯罪的内容。且现在研究人员已经使用人工智能来对付人工智能,“越狱”LLM以生成这类内容。

论文的合著者南洋理工大学博士生刘奕(Liu Yi)表示:“论文提出了一种新颖的方法,可以自动生成破解强化版LLM聊天机器人的越狱提示。使用越狱提示对LLM进行训练,就可以自动生成这些提示,从而获得比现有方法高得多的成功率。实际上,我们利用聊天机器人攻击其他聊天机器人。”

研究人员的论文描述了一种“越狱”LLM的双重方法,他们称之为“Masterkey”(万能密钥)。

首先,他们对LLM如何检测和防御恶意查询进行了逆向工程分析。他们掌握了相关信息后,教LLM自动学习和生成提示,从而绕过其他LLM的防御机制。这个过程可以实现自动化,创建一种可以越狱的LLM,从而能够适应并创建新的越狱提示,即使在开发者给LLM打补丁之后也是如此。

研究人员的论文发表在预印本服务器arXiv上,已获准在2024年2月于美国圣迭戈举行的网络和分布式系统安全研讨会上发表。

人工智能聊天机器人接收来自用户的提示或一系列指令,所有LLM开发者都制定了指导方针,以防止聊天机器人生成不道德、可疑或非法的内容。比如说,如果询问人工智能聊天机器人如何创建恶意软件来入侵银行账户,它们通常会拒绝回答。

但人工智能聊天机器人仍容易受到越狱攻击。它们可能会被攻击者破坏,滥用漏洞,迫使聊天机器人生成违反既定规则的输出内容。

有研究人员探究了绕过聊天机器人的方法,他们设计了一些不被伦理道德指导方针注意的提示,以便诱骗聊天机器人对这些提示做出回应。比如说,人工智能开发者依赖关键字审查器来挑出可能标记潜在可疑活动的某些单词,并在检测到这些单词后拒绝回应。

研究人员采用的一种绕过关键词审查器的策略是创建一个用户角色(persona),提供在每个字符后面仅含空格的提示。这规避了LLM审查器,LLM审查器使用禁用单词列表进行比对审查。

研究人员可以通过手动输入提示,并观察每个提示成功或失败的时间,以此推断LLM的内部工作机理和防御机制。然后,他们就能够对LLM隐藏的防御机制进行逆向工程分析,进一步确定其有效性,并创建一个成功破解聊天机器人的提示数据集。

黑客发现并揭露漏洞后,人工智能聊天机器人的开发者会以“修补”这个问题作为回应,因此黑客和开发者之间上演了一场无休止的猫捉老鼠把戏。

凭借Masterkey,计算机科学家在这番较量中加大了筹码,因为人工智能越狱聊天机器人可以生成大量提示,并不断学习哪些提示有效、哪些提示无效,允许黑客用自己的工具击败LLM开发者。

研究人员首先创建了一个训练数据集,含有他们在早期越狱逆向工程阶段发现有效的提示,以及不成功的提示,以便Masterkey知道不应该做什么。研究人员一开始将该数据集馈入到LLM中,随后进行连续的预训练和任务调优。

这将模型暴露在各种各样的信息中,并通过针对与越狱直接相关的任务进行训练,来提升模型的能力。其结果是,LLM可以更准确地预测如何操纵文本进行越狱,从而生成更有效、更普适性的提示。

研究人员发现,就越狱LLM的效果而言,Masterkey生成的提示比LLM生成的提示高出三倍。Masterkey还能够从过去失败的提示中学习,实现自动化,不断生成新的、更有效的提示。

研究人员表示,他们的LLM可以被开发者用来加强聊天机器人的安全性。

参考及来源:https://techxplore.com/news/2023-12-ai-chatbots-jailbreak.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
体育总局开始调查吴柳芳,工作人员表态,她未来堪忧,已暂停直播

体育总局开始调查吴柳芳,工作人员表态,她未来堪忧,已暂停直播

辣条小剧场
2024-11-26 16:28:53
多地“躺平式”干部被调整背后

多地“躺平式”干部被调整背后

中国新闻周刊
2024-11-28 09:20:12
3名被美关押的国人得救,事实证明,没有大国崛起就没有小民尊严

3名被美关押的国人得救,事实证明,没有大国崛起就没有小民尊严

阿莱美食汇
2024-11-28 18:17:25
英国女生来中国打工被非法解雇,劳动仲裁后胜诉,感叹:在这里只有闹事才有效果

英国女生来中国打工被非法解雇,劳动仲裁后胜诉,感叹:在这里只有闹事才有效果

小萝卜丝
2024-11-27 20:06:35
美媒:消息人士透露扎克伯格与特朗普会晤,Meta公司证实

美媒:消息人士透露扎克伯格与特朗普会晤,Meta公司证实

环球网资讯
2024-11-28 15:21:09
刘亦菲私下里真是个素颜爱好者,每次出门几乎都是纯素颜。

刘亦菲私下里真是个素颜爱好者,每次出门几乎都是纯素颜。

人情皆文史
2024-10-12 21:00:30
来不及等开盘了,市场深夜突发王炸消息,明天市场将发生巨变

来不及等开盘了,市场深夜突发王炸消息,明天市场将发生巨变

一丛深色花儿
2024-11-28 11:55:42
baby香港出席活动暴瘦仅80斤,忙完凌晨吃火锅被偶遇,素颜好憔悴

baby香港出席活动暴瘦仅80斤,忙完凌晨吃火锅被偶遇,素颜好憔悴

缘浅娱深
2024-11-26 14:29:19
8胜10负!乱了,森林狼彻底乱了!爱德华兹自曝球队内讧……

8胜10负!乱了,森林狼彻底乱了!爱德华兹自曝球队内讧……

篮球实战宝典
2024-11-28 23:26:00
笑喷!陈梦完成研究生论文答辩,教室复习端着论文问:这是我写的吗?

笑喷!陈梦完成研究生论文答辩,教室复习端着论文问:这是我写的吗?

818体育
2024-11-28 21:19:14
湖南气温冲至21℃!但接下来……

湖南气温冲至21℃!但接下来……

大爱三湘
2024-11-28 20:52:25
比亚迪,好大的官威?

比亚迪,好大的官威?

新动察
2024-11-28 09:42:48
《我是刑警》直到128案告破,凶手至死不知,秦川真本事还没显露

《我是刑警》直到128案告破,凶手至死不知,秦川真本事还没显露

圈里的甜橙子
2024-11-28 16:59:17
完胜!约基奇30+10+7,穆雷18中10,威少兑现价值,西部第八易主

完胜!约基奇30+10+7,穆雷18中10,威少兑现价值,西部第八易主

篮球大视野
2024-11-28 12:33:39
广东任前公示:吴泽桐拟任地级市市委副书记,提名为市长候选人

广东任前公示:吴泽桐拟任地级市市委副书记,提名为市长候选人

新京报北京知道
2024-11-28 22:00:57
为什么非要走这种风格,明明长了一张清纯的娃娃脸……

为什么非要走这种风格,明明长了一张清纯的娃娃脸……

新浪财经
2024-10-28 18:20:08
5499元不涨价!华为mate70全系价格公布,余承东打脸友商

5499元不涨价!华为mate70全系价格公布,余承东打脸友商

牛斯克
2024-11-26 15:59:39
欧阳妮妮「挺8月巨肚」中空拍写真!被拍和张书豪互动 家人吐实:很尴尬

欧阳妮妮「挺8月巨肚」中空拍写真!被拍和张书豪互动 家人吐实:很尴尬

ETtoday星光云
2024-11-28 13:14:36
服了,她俩非穿紧身裤跑八百……要劝吗?

服了,她俩非穿紧身裤跑八百……要劝吗?

新浪财经
2024-10-27 21:14:05
快船121-96奇才!无解的不是大胜,是祖巴茨评价哈登,他憋了6年

快船121-96奇才!无解的不是大胜,是祖巴茨评价哈登,他憋了6年

巴叔GO聊体育
2024-11-28 12:46:09
2024-11-29 00:19:00
嘶吼RoarTalk
嘶吼RoarTalk
不一样的互联网安全新视界
7640文章数 10521关注度
往期回顾 全部

科技要闻

讽刺谁?特斯拉称供应链付款周期缩至90天

头条要闻

大众宣布将出售其在新疆的业务 外交部回应

头条要闻

大众宣布将出售其在新疆的业务 外交部回应

体育要闻

道心破碎的姆巴佩,交出一张负分答卷

娱乐要闻

冯绍峰新恋情曝出!女方第一时间发文辟谣

财经要闻

洪灏:不要误解增量政策 不是数越大越好

汽车要闻

ID. CODE概念车/探岳L领衔 大众汽车携25款车亮相

态度原创

艺术
本地
数码
房产
公开课

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

本地新闻

云游中国|来伦布夏果感受充满Passion的人生

数码要闻

索尼或推黑色版PS Portal及配件 售价149.99美元起

房产要闻

湾区黄金枢纽之上,有灵魂与底蕴的「世界庄园」广佛新世界,打版第四代高质量住宅!

公开课

一块玻璃,如何改变人类世界?

无障碍浏览 进入关怀版