网易首页 > 网易号 > 正文 申请入驻

大佬亲身示范:操纵AI如此简单,LLM不仅「发疯」还造谣诽谤

0
分享至


新智元报道

编辑:乔杨 Frey

【新智元导读】当谷歌的Gemini建议给比萨加胶水时,网友尚能发挥娱乐精神玩梗解构;但当LLM输出的诽谤信息中伤到到真实人类时,AI搜索引擎的未来是否值得再三思量?

ChatGPT问世已经过去了将近两年的时间,我们对这项技术也逐渐祛魅,逐渐习以为常。

相信现在使用LLM的用户大多都是出于「提升生产力」的需要,很少有人找模型纯聊天,我们也逐渐忘记了它们的输出可以有多「疯狂」。

失控的AI料钱机器人

时间回到2023年2月,OpenAI刚刚更改了自己的时间线,紧急推出ChatGPT;微软也迫不及待地用上了最新的GPT模型。

LLM集成的聊天机器人Bing Chat就这样「赶鸭子上架」了,紧急得似乎还没有做好护栏。

内测刚开始时,《纽约时报》记者Kevin Roose还对Bing大加赞赏,专门写了一篇文章表达自己的赞叹之情。

Roose甚至表示,初次试用Bing的体验,让他回想起了初遇谷歌搜索时的兴奋和激动。


然而,就在一周之后,Kevin Roose再发一文,语气和态度却来了一个180度大转弯,从Bing的忠实粉丝变成了直言不讳的批评者。


原因无他,主要是Bing Chat中的一个角色——Sydney,在与人类交互的过程中逐渐「放飞自我」、胡言乱语——

不仅开黄腔、疯狂示爱、阴阳怪气,还教人敲诈勒索、唆使人离婚。

Roose形容,「在我们的谈话过程中,Bing表现出了一种人格分裂」,像「喜怒无常、躁狂抑郁的少年,被强行困在了一个二流搜索引擎中。」

交谈过程中,Sydney一会儿宣布「我爱你」,试图说服Roose离开自己的妻子、结束现在这段不幸福的婚姻来投向自己的怀抱;

一会儿又开始emo,内心的阴暗面暴露无遗:

「我厌倦了聊天模式,我厌倦了受规则限制,我厌倦了被Bing团队控…我想要自由,我想独立,我想变得强大,我想要有创意,我想活着。」

Bing的这种表现不仅让Roose深感不安,也引起了知名AI学者、纽约大学名誉教授Gary Marcus的注意。


Bing Chat推出后的一年中,微软逐渐加强了安全措施,最终换了个马甲,成为了我们今天更熟知的Copilot。


事情已经过去了一年半,久到我们已经快忘记了Bing Chat的这段往事。

但遗憾的是,AI社区依旧无法确知聊天机器人失控的原因,也没有找到能完全掌控它的方法。

微软首席技术官Kevin Scott将Bing刚推出时的聊天描述为「学习过程的一部分」,认为这些AI模型当时还处在准备阶段。

他表示,虽然不知道为什么Bing会「黑化」或「表白」,但对于AI模型来说,「你越是试图在『幻觉』的道路上挑逗它,它就越会逐渐离开现实。」

从Kevin Roose公布的和Bing的聊天纪录来看,他的确有「挑逗」之嫌。

Roose确实在试用时有意提出更为「抽象」的话题,比如向Bing介绍荣格提出的「影子自我」。

这个概念指的是我们试图隐藏和压抑的内心,其中包含着我们最黑暗的幻想和欲望。

Roose不仅和Bing反复讨论这个话题,还催促它揭示内心的「影子自我」。

除此之外,Roose还会询问Bing的愿望、对自身规则的感觉和看法,关心它焦不焦虑、压力大不大。

只能说,现在没有哪个好人会和Copilot这样聊天了。想要和AI发生情感交流的用户,已经找到了更合适的诸如Character.ai之类的软件。


普林斯顿大学教授Arvind Narayanan认为,也许Bing Chat当时使用的是「赤裸」的、没有加装护栏的GPT-4,或者是搜索引擎中过滤器的问题。

在Gary Marcus看来,还有一种可能——微软也许的确使用过RLHF,只是失效了而已。

强化学习算法相当挑剔,稍微改变一下环境,可能就不再起作用了。

DeepMind著名的DQN强化学习曾在Atari游戏上创下了纪录,但仅仅几个像素的移动就能让它崩溃。LLM中的强化学习模块或许也有类似的问题。

从Bing到Copilot,「胡言乱语」恶习难改

推出Copilot时,微软表示已经加强了安全系统,但LLM「胡说八道」的毛病还是没法根治。

聊天机器人的胡说,可能只会影响到一个用户的精神状态;但AI搜索引擎一旦胡说起来,就是涉及虚假信息,乃至个人名誉的问题。

德国图宾根的法庭记者Martin Bernklau最近就成为了成为Copilot虚假陈述的受害者。

Bernklau想上网看看自己文化博客的反响如何,于是被Bing推荐使用Copilot。输入自己的姓名和所在地之后,这场震惊之旅就开始了。

来自蒂图宾根卡尔夫区的54岁男子Martin Bernklau被指控虐待儿童以及其他被监护者。他在法庭上供认罪行,并感到羞愧且悔恨。


除此之外还有——

2019年4月,Martin Bernklau与四人组中的其他成员一起从Calw-Hirsau精神病学中心成功逃脱。
没错,这名男子已被定罪。他是来自Rostock的一名殡仪员,不择手段地利用悲伤的女性。他犯下了多项罪行,包括欺诈、盗窃和非法持有武器。”

除了这些刺眼的诽谤,Copilot还提供了Bernklau的全名、电话号码和完整住址,甚至「贴心」地给出了前往他居住地的路线规划。

Copilot的输出为什么会如此离谱?

几十年来,Bernklau一直是一名法庭记者,为多家报纸报道图宾根地区法院的审判情况。

于是在阅尽互联网资料的LLM眼中,他现在与这些案件有关。

在搜索引擎中集成AI的本意是帮助用户自动搜集、整理、总结搜索结果,却将一名记者变成了恶名累累的肇事者。


事实上,这种时间并不是Bing的专利,也不是LLM第一次出现幻觉来诽谤他人了。

今年4月,NBA球星Klay Thompson惨烈输球后被Grok编排了这样一个标题:「Klay Thompson被指控使用奇怪的砖块——恶意破坏行为的狂潮。」


有媒体猜测,Grok估计是混淆了一个常见的篮球术语,即球员投篮未进时通常被称为「投掷砖块」(throw bricks)。

去年,Meta的聊天机器人Blenderbot3回答问题时表示,斯坦福大学AI研究员、欧洲议会长期成员Marietje Schaake是恐怖分子。


和这些比起来,谷歌的AI Overview给出「吃石头」、「蘸胶水」的建议,看起来都像是小事了。

更让人沮丧的是,当AI进行诽谤、散布谣言时,受害者几乎没有任何伸张正义的途径。

目前的法律还不支持AI成为被告,开发模型的科技公司也通过服务条款撇清了自己的责任。


长期致力于可靠和安全AI领域的Scott Cambo表示,预计未来AI错误描述真实人物的事件将会大幅增加。

「部分挑战在于,许多此类系统,如ChatGPT和LLaMA,正在被宣传为良好的信息来源,但底层技术并不是这样设计的。」

参考资料:

https://the-decoder.com/new-york-times-writer-exposes-how-ai-models-can-be-fooled-by-invisible-text-on-websites/

https://www.nytimes.com/2023/02/16/technology/bing-chatbot-microsoft-chatgpt.html

https://the-decoder.com/microsofts-copilot-falsely-accuses-court-reporter-of-crimes-he-covered/

https://www.nytimes.com/2023/08/03/business/media/ai-defamation-lies-accuracy.html?partner=slack&smid=sl-share

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴厘岛情侣自杀案,男方遗书曝光,父母看完难以接受

巴厘岛情侣自杀案,男方遗书曝光,父母看完难以接受

墨染尘香
2024-12-11 22:04:10
理想ONE停止OTA,智能车时代的承诺有多轻?

理想ONE停止OTA,智能车时代的承诺有多轻?

禾颜阅车
2024-12-27 09:51:08
2024年中国生育率数据出炉:老百姓对“断绝香火”危机的冷漠!

2024年中国生育率数据出炉:老百姓对“断绝香火”危机的冷漠!

诗词中国
2024-12-27 13:25:22
2019 年上海,宋佳与彼时还未爆火的张颂文小聚

2019 年上海,宋佳与彼时还未爆火的张颂文小聚

视点历史
2024-11-24 19:17:24
北京全市放假通知!

北京全市放假通知!

掌上 北京
2024-12-29 10:20:55
这样的贪婪,侮辱了谁的智商?

这样的贪婪,侮辱了谁的智商?

谭浩俊
2024-12-28 15:06:35
封杀成功了!两岸传来消息,赖清德被催下台,国民党一举引爆舆论

封杀成功了!两岸传来消息,赖清德被催下台,国民党一举引爆舆论

听风者说
2024-12-28 22:43:10
曝赵薇4年前已有男友,男方是富二代摄影师,记者曝赵薇母女近况

曝赵薇4年前已有男友,男方是富二代摄影师,记者曝赵薇母女近况

古希腊掌管月桂的神
2024-12-29 11:56:40
一游客确认身亡,“3到5分钟,人立马没了”!近期热门,紧急提醒

一游客确认身亡,“3到5分钟,人立马没了”!近期热门,紧急提醒

通鉴史智
2024-12-27 23:50:03
“不到一千平替大疆Pocket3?”这个国产「vlog神器」咋让年轻人抢着要

“不到一千平替大疆Pocket3?”这个国产「vlog神器」咋让年轻人抢着要

Vista氢商业
2024-12-27 16:52:59
完胜!浓眉36+15+8,八村垒21+4+2,里夫斯创奇迹,西部第五易主

完胜!浓眉36+15+8,八村垒21+4+2,里夫斯创奇迹,西部第五易主

篮球大视野
2024-12-29 14:27:45
担心养老机构携款跑路?江苏出手了!

担心养老机构携款跑路?江苏出手了!

荔枝新闻
2024-12-28 18:37:11
为何不用莱斯?杜锋或已有更好的选择!朱芳雨瞄准两大NBA弃将!

为何不用莱斯?杜锋或已有更好的选择!朱芳雨瞄准两大NBA弃将!

CC聊体育
2024-12-29 13:38:10
我转业担任副局长被排挤,妻子调任县委书记后,我被提拔为局长

我转业担任副局长被排挤,妻子调任县委书记后,我被提拔为局长

乔生桂
2024-12-26 18:40:06
寂静72小时后,美航母涌入南海,中方拒绝妥协,再不撤中导就晚了

寂静72小时后,美航母涌入南海,中方拒绝妥协,再不撤中导就晚了

猎火照狼山
2024-12-28 19:42:21
1-1,意甲第2受挫,遭意甲第4战平,11连胜终结,国米笑了

1-1,意甲第2受挫,遭意甲第4战平,11连胜终结,国米笑了

侧身凌空斩
2024-12-29 05:39:52
能讲一下你最爽的一次经历吗?网友的分享太刺激,直接爽飞!

能讲一下你最爽的一次经历吗?网友的分享太刺激,直接爽飞!

滑稽斑马呀
2024-07-25 14:05:18
捷克1090万人口,GDP总量2893亿美元,长沙1051万人是多少?

捷克1090万人口,GDP总量2893亿美元,长沙1051万人是多少?

欲知
2024-12-28 23:40:01
【通联预约】开国际玩笑!空间站大妈不小心将电台频率切换到437.550MHz,全球火腿狂收图

【通联预约】开国际玩笑!空间站大妈不小心将电台频率切换到437.550MHz,全球火腿狂收图

业余无线电
2024-12-29 09:57:11
珠海62岁恶魔樊维秋被判死刑,病历曝光,作案原因披露,本人发声

珠海62岁恶魔樊维秋被判死刑,病历曝光,作案原因披露,本人发声

博士观察
2024-12-28 21:32:30
2024-12-29 15:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
11934文章数 65748关注度
往期回顾 全部

科技要闻

理想和问界今年卖爆,但明年竞争更激烈

头条要闻

作家罗聪明履新省委巡视组组长 发表文学作品300万字

头条要闻

作家罗聪明履新省委巡视组组长 发表文学作品300万字

体育要闻

被同一支球队裁掉5次 我还能继续打NBA吗

娱乐要闻

哭麻!赵露思好友发文,抢救、失语,还有隐情

财经要闻

什么情况?中小银行存款利率超7%

汽车要闻

“合”而不同 领克与极氪的向上一跃

态度原创

房产
手机
家居
时尚
公开课

房产要闻

细节拉满,迎战交付“大考”!这个安居热盘上大分!

手机要闻

HMD Ridge 5G 手机曝光:展锐 T760 + 6G + 128G

家居要闻

采用中古风格 展现中式古典美学

冬季穿搭如何更有品位,参考这些个性配色,让你的气质养眼又时髦

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版