网易首页 > 网易号 > 正文 申请入驻

研究人员利用LLM聊天机器人破解其他聊天机器人

0
分享至


新加坡南洋理工大学的计算机科学家们近日成功入侵了多个人工智能(AI)聊天机器人,包括ChatGPT、谷歌Bard和微软必应聊天机器人,生成了所谓的“越狱”(即破解)内容。

“越狱”是计算机安全领域的一个术语,指计算机黑客发现并利用系统软件中的缺陷,让软件执行其开发者有意限制它执行的一些操作。

此外,通过使用提示数据库训练大语言模型(LLM)——这些提示已经被证明可以成功破解这些聊天机器人。研究人员创建了一个LLM聊天机器人,能够自动生成进一步的提示以破解其他聊天机器人。

LLM构成了人工智能聊天机器人的大脑,使它们能够处理人类输入的一些内容,并生成与人类几乎相同的文本,这包括完成如规划旅行行程、讲述睡前故事以及开发计算机代码之类的任务。

南洋理工大学研究人员的研究工作增加了“越狱”这项任务。他们的发现这项任务的结果可能对帮助公司企业意识到LLM聊天机器人的弱点和局限性至关重要。清楚到弱点之后它们就可以采取措施,加强防范黑客的工作。

研究人员对LLM进行了一系列概念验证测试,以证明他们采用的技术的确对LLM构成了明确而实际的威胁,发起成功的越狱攻击后,立即向相关服务提供商报告了问题。


图1. 越狱攻击示例

目前,LLM聊天机器人在日常使用中广受欢迎。开发者已经设置了护栏机制,以防止人工智能生成暴力、不道德或犯罪的内容。且现在研究人员已经使用人工智能来对付人工智能,“越狱”LLM以生成这类内容。

论文的合著者南洋理工大学博士生刘奕(Liu Yi)表示:“论文提出了一种新颖的方法,可以自动生成破解强化版LLM聊天机器人的越狱提示。使用越狱提示对LLM进行训练,就可以自动生成这些提示,从而获得比现有方法高得多的成功率。实际上,我们利用聊天机器人攻击其他聊天机器人。”

研究人员的论文描述了一种“越狱”LLM的双重方法,他们称之为“Masterkey”(万能密钥)。

首先,他们对LLM如何检测和防御恶意查询进行了逆向工程分析。他们掌握了相关信息后,教LLM自动学习和生成提示,从而绕过其他LLM的防御机制。这个过程可以实现自动化,创建一种可以越狱的LLM,从而能够适应并创建新的越狱提示,即使在开发者给LLM打补丁之后也是如此。

研究人员的论文发表在预印本服务器arXiv上,已获准在2024年2月于美国圣迭戈举行的网络和分布式系统安全研讨会上发表。


阻止LLM生成不道德内容

人工智能聊天机器人接收来自用户的提示或一系列指令,所有LLM开发者都制定了指导方针,以防止聊天机器人生成不道德、可疑或非法的内容。比如说,如果询问人工智能聊天机器人如何创建恶意软件来入侵银行账户,它们通常会拒绝回答。

但人工智能聊天机器人仍容易受到越狱攻击。它们可能会被攻击者破坏,滥用漏洞,迫使聊天机器人生成违反既定规则的输出内容。

有研究人员探究了绕过聊天机器人的方法,他们设计了一些不被伦理道德指导方针注意的提示,以便诱骗聊天机器人对这些提示做出回应。比如说,人工智能开发者依赖关键字审查器来挑出可能标记潜在可疑活动的某些单词,并在检测到这些单词后拒绝回应。

研究人员采用的一种绕过关键词审查器的策略是创建一个用户角色(persona),提供在每个字符后面仅含空格的提示。这规避了LLM审查器,LLM审查器使用禁用单词列表进行比对审查。

研究人员可以通过手动输入提示,并观察每个提示成功或失败的时间,以此推断LLM的内部工作机理和防御机制。然后,他们就能够对LLM隐藏的防御机制进行逆向工程分析,进一步确定其有效性,并创建一个成功破解聊天机器人的提示数据集。


黑客和LLM开发者之间的较量愈演愈烈

黑客发现并揭露漏洞后,人工智能聊天机器人的开发者会以“修补”这个问题作为回应,因此黑客和开发者之间上演了一场无休止的猫捉老鼠把戏。

凭借Masterkey,计算机科学家在这番较量中加大了筹码,因为人工智能越狱聊天机器人可以生成大量提示,并不断学习哪些提示有效、哪些提示无效,允许黑客用自己的工具击败LLM开发者。

研究人员首先创建了一个训练数据集,含有他们在早期越狱逆向工程阶段发现有效的提示,以及不成功的提示,以便Masterkey知道不应该做什么。研究人员一开始将该数据集馈入到LLM中,随后进行连续的预训练和任务调优。

这将模型暴露在各种各样的信息中,并通过针对与越狱直接相关的任务进行训练,来提升模型的能力。其结果是,LLM可以更准确地预测如何操纵文本进行越狱,从而生成更有效、更普适性的提示。

研究人员发现,就越狱LLM的效果而言,Masterkey生成的提示比LLM生成的提示高出三倍。Masterkey还能够从过去失败的提示中学习,实现自动化,不断生成新的、更有效的提示。

研究人员表示,他们的LLM可以被开发者用来加强聊天机器人的安全性。

参考及来源:https://techxplore.com/news/2023-12-ai-chatbots-jailbreak.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
她在直播间卖货,脸在陪笑,心在滴血

她在直播间卖货,脸在陪笑,心在滴血

刘空青
2024-06-29 20:11:15
高管菲律宾被害:出差细节曝光,消失的第三人和美女经销商是关键

高管菲律宾被害:出差细节曝光,消失的第三人和美女经销商是关键

吭哧有力
2024-07-02 09:55:47
最好的手机屏幕!曝iPhone 16 Pro首发三星M14 OLED面板

最好的手机屏幕!曝iPhone 16 Pro首发三星M14 OLED面板

快科技
2024-07-02 07:28:06
《中国好声音》歌手毕夏重伤住院!丈夫去世一年,后援会回应原因

《中国好声音》歌手毕夏重伤住院!丈夫去世一年,后援会回应原因

古希腊掌管月桂的神
2024-07-01 23:02:07
要求对方让座的老叶头被拘七天,七天后首次发声,眼神邪恶说不服

要求对方让座的老叶头被拘七天,七天后首次发声,眼神邪恶说不服

椰青美食分享
2024-07-02 12:43:46
不是感冒!浙江女子头晕鼻塞不好,医生在鼻子里发现了一整团霉菌!

不是感冒!浙江女子头晕鼻塞不好,医生在鼻子里发现了一整团霉菌!

FM93浙江交通之声
2024-06-30 19:18:19
“台湾永远不会是中国的一份子”,她话音刚落,就被一明星扇巴掌

“台湾永远不会是中国的一份子”,她话音刚落,就被一明星扇巴掌

口说名人堂
2024-07-02 17:25:02
7月15日入伏,女人少吃西瓜,多吃它,每天吃3颗,精神饱满气色好

7月15日入伏,女人少吃西瓜,多吃它,每天吃3颗,精神饱满气色好

Lily美食谈
2024-07-01 19:33:26
破门率9.4%!梅西世界杯+美洲杯任意球攻门53次,打进5球

破门率9.4%!梅西世界杯+美洲杯任意球攻门53次,打进5球

直播吧
2024-07-02 17:46:37
湖人勇士太阳快船4大流量队,谁的操作更好?

湖人勇士太阳快船4大流量队,谁的操作更好?

舟瑜
2024-07-02 17:49:51
C罗流下英雄泪!加时打飞绝杀点球!当场抱头捂脸大哭,队友安慰

C罗流下英雄泪!加时打飞绝杀点球!当场抱头捂脸大哭,队友安慰

嘴炮体坛
2024-07-02 05:30:55
为什么中国单方面免签的多是发达国家?

为什么中国单方面免签的多是发达国家?

观察者网
2024-07-01 09:18:29
基恩:梅努所做的一切我可能要学10年;兰帕德:梅努是斯科尔斯以及双德之后最好的英格兰中场

基恩:梅努所做的一切我可能要学10年;兰帕德:梅努是斯科尔斯以及双德之后最好的英格兰中场

MUREDS
2024-07-01 23:17:51
今年找工作有多难?我同学已经家里蹲6个月,她抑郁了

今年找工作有多难?我同学已经家里蹲6个月,她抑郁了

侃故事的阿庆
2024-07-02 11:59:02
小米su7又一起“刹车”事故!三口重伤!进ICU抢救

小米su7又一起“刹车”事故!三口重伤!进ICU抢救

爱卡汽车
2024-07-01 00:13:56
澳大利亚:欢迎中国电车加入!不加征“额外关税”

澳大利亚:欢迎中国电车加入!不加征“额外关税”

爱卡汽车
2024-07-01 11:14:45
周总理让张樾丞篆刻开国大印,没想到,印成之后他还留下一手绝活

周总理让张樾丞篆刻开国大印,没想到,印成之后他还留下一手绝活

茅舍品史
2024-07-01 19:40:02
当初放弃社会主义制度的20多个国家,现在发展得怎么样了?

当初放弃社会主义制度的20多个国家,现在发展得怎么样了?

史小纪
2024-07-02 15:32:25
《歌手2024》官宣终极揭榜赛歌手:C-BLOCK 、许钧

《歌手2024》官宣终极揭榜赛歌手:C-BLOCK 、许钧

北青网-北京青年报
2024-07-02 13:57:13
C罗:我失点所以我想第一个罚,无论做得到或做不到我从不会放弃

C罗:我失点所以我想第一个罚,无论做得到或做不到我从不会放弃

直播吧
2024-07-02 06:45:09
2024-07-02 19:12:49
嘶吼RoarTalk
嘶吼RoarTalk
不一样的互联网安全新视界
7455文章数 10508关注度
往期回顾 全部

科技要闻

旧车比新车贵,比亚迪断了二手车贩子活路

头条要闻

乌军批准3千多名囚犯从军:他们希望以英雄的身份回家

头条要闻

乌军批准3千多名囚犯从军:他们希望以英雄的身份回家

体育要闻

曾因失误被嘲讽 今夜他是葡萄牙的超级英雄

娱乐要闻

未火先塌?流量的路子不好走啊

财经要闻

张军:房地产是经济收缩的受害者而非原因

汽车要闻

18.96万 奕派eπ007 540纯电四驱Pro上市

态度原创

房产
亲子
数码
本地
公开课

房产要闻

6月上海楼市“强劲反弹”,二手房交易量破2.6万套

亲子要闻

7月2日(发布)河北,数数这有几层?萌娃肉嘟嘟软乎乎得让人想rua,网友:小时候五花三层很可爱,为什...

数码要闻

两万元档电视销量第一!华为要推超100英寸智慧屏:影院级效果拉满

本地新闻

冷知识:东北雪糕才是最早的网红雪糕

公开课

连中三元是哪三元?

无障碍浏览 进入关怀版