网易首页 > 网易号 > 正文 申请入驻

GPT-4通过图灵测试,胜率高达54%!UCSD新作:人类无法认出GPT-4

0
分享至

新智元报道

编辑:桃子 庸庸

【新智元导读】GPT-4通过图灵测试了!UCSD研究团队通过实证研究,人类无法将GPT-4与人类进行区分。而且,有54%的情况下,它被判定为人类。

GPT-4可以通过图灵测试吗?

当一个足以强大的模型诞生之后,人们往往会用图灵测试去衡量这一LLM的智能程度。

最近,来自UCSD的认知科学系研究人员发现:

在图灵测试中,人们根本无法区分GPT-4与人类!

论文地址:https://arxiv.org/pdf/2405.08007

在图灵测试中,GPT-4有54%的情况下,被判定为人类。

实验结果更是表明,这是首次有系统在「交互式」双人图灵测试中,被实证通过测试。

研究者Cameron R.Jones招募了500名志愿者,他们被分为5个角色:4个评估员,分别是GPT-4、GPT-3.5、ELIZA和人类,另一个角色就「扮演」人类自己,藏在屏幕另一端,等待着评估员的发现。

以下是节选的游戏,你能看出哪个对话框是人类吗?

图 1:人类审讯者(绿色)与证人(灰色)之间的部分对话

其实,这四段对话中,有一段是与人类证人的对话,其余都是与人工智能的对话。

首次开启受控「图灵测试」

过去74年里,人们进行了许多图灵测试的尝试,但很少进行过受控实验。

著名的Loebner奖是一项年度竞赛,然而从1990年首次举办一直到2020年,没有一个系统通过测试。

最近的一项大规模研究发现,人类在2分钟的在线对话中,识别一系列LLM准确率达到 60%。

迄今为止,还没有任何机器通过测试的「受控」实验演示。

为了测试人们是否有可能识破当前AI系统的欺骗行为,研究人员使用GPT-4进行了一次随机控制的双人图灵测试。

测试要求很简单,即人类参与者与人类、人工智能开启5分钟对话,并判断对话者是否是人类。

正如开篇所述,研究人员一共测评了3个模型——GPT-4、GPT-3.5,以及ELIZA。

针对前两个LLM, 研究者通过改编GPT-4和GPT-3.5探索性研究中表现最佳的提示,来指示大模型如何去响应消息。

研究人员称,解释图灵测试的一个核心挑战是,系统表现出色可能源于两种原因:

- 一是出色地模仿人类

- 二是评判者过于轻信

后一种情况,常被称为ELIZA效应,即参与者甚至会将简单的系统也人性化。

ELIZA系统对于每个人来说,再熟悉不过了。

它是20世纪60年代的一款基于规则的简单聊天机器人,但用户发现自己也会将人类特征归因于它。

因此,在实验中,研究人员将ELIZA作为基线,一方面是为了从经验上量化ELIZA效应,另一方面也是为了在实验中进行操作检查。

那么,这项图灵测试的结果,具体如何呢?

GPT-4通过率54%

首先看一个重要的指标:通过率。

研究者将通过率定义为在游戏中,评估对象被评估者判定为人类的比例。

GPT-4的通过率为54%,超过了GPT-3.5(50%)和ELIZA基线(22%),但低于人类被试者(67%)。

评估对象通过率(左)和评估者信任度(右)。右图每个点代表一场游戏

这个结果其实并不令人意外,与研究初始阶段的设想基本相符合。

在试验之前,研究者就做出了几个假设:首先,假设人类在检测GPT-4方面的能力不会超过偶然性(50%)。

为了验证这一点,研究者拟合了一个逻辑回归模型来预测只有截距的通过率。

截距与0(z=0.14, p=0.482)没有明显差距,这表明GPT-4的通过率可以约等于50%。贝叶斯模型预测GPT-4截距的95%可信区间为-0.24-0.55(相当于44%-63%的通过率)。

这意味着,人类在面对GPT-4时,成功分辨的概率跟抛硬币差不多!

结果还证实了研究人员的第二和第三个假设:人类的通过率明显高于GPT-4的通过率(z=2.42,p=0.017),而GPT-4的通过率高于ELIZA的通过率(z=4.11,p<0.001)。

然而,与研究者的试验设想不一致的是:GPT-4和GPT-3.5的表现几乎差不多(z=0.497,p=0.619)。

在「伪装人类」这一块,打了个平手。

同样出人意料的是,那些自称更了解LLM工作原理的参与者并没有更成功地识别出LLM(z = -0.023,p = 0.869)。

在探索性分析中,研究者发现年龄对询问者的准确性有负面影响(z = -2.24,p = 0.025),但其他人口统计学变量(包括性别、教育水平和与聊天机器人互动的频率)则没有显著影响。

为什么会是这样的结果?让我们来分析一下背后的原因。

为了深入了解到底是什么在影响评估者的决策,我们对评估者使用的策略和他们为决策提供的理由进行了分类。

36%的评估者会与评估对象闲聊,询问一些个人细节或日常活动。

第二类和第三类最常用的策略是社交与情感(25%)——例如,询问评估对象的观点和经历,观察他们是否具备幽默感。

还有人侧重考察知识与推理(13%),包括有关数学、逻辑和常识的问题。

询问策略(左)和平均准确率(右)

为了对比每种策略的有效性,研究者计算了使用这些策略的平均准确率。

当评估对象问及对方有关人类经历(75%)、逻辑和数学(78%)或直接「指控」对方是人工智能(80%)时,通常会距离「正确答案」更近。

在游戏中,人工智能之所以会「露出马脚」,通常是因为评估者认为他们似乎在强迫自己扮演角色,要么过于随意,要么则缺乏个性。

而ELIZA 很容易「暴露」,主要是因为反应不自然和缺乏语境意识。

可以看出,无论是从参与游戏的志愿者所使用的策略还是决策理由来看,他们都更注重语言风格和社会情感因素,而不是更传统的智力范畴(知识和推理)。

这似乎反映出志愿者们的一个潜在假设——社会智能才是AI最无法模仿的人类特征。

图灵测试,过了

如何判断系统何时通过了图灵测试?

图灵在1950年的论文中预测,到本世纪末, AI系统将能够很好地玩模仿游戏,以至于审查员在5分钟的交流后,做出正确识别的机会不会超过70%。

这一结论,导致了AI的通过率是否能够达到30%,成为许多研究者的讨论目标。

然而,这个基准似乎是任意的,并且不清楚图灵是否将其作为成功的定义。

其实,50%的基线更加合理,因为它更能证明人类审查者,在识别AI方面并不比偶然性更强。

这一定义,与发现用户是否可以在在线互动中,可靠地识别其他人类这一目标尤为相关。

在研究者的预公开的分析中,通过使用ELIZA基线作为操作检查来解决这个问题。

只有当分析表明ELIZA的通过率低于概率,而GPT-4的通过率不低于概率的情况下,才能判定模型通过了测试。

而根据这一定义,GPT-4显然通过了这一版本的图灵测试。

此外,参与者的置信度得分和决策依据,都表明他们并非随意猜测:GPT-4是人类的平均置信度为73%(见图 2)。

网友讨论

有网友表示,如果我们要将图灵测试等同于智力,图灵测试就不是一个好的测试。然而,AI几乎始终可以「欺骗」人类的事实有点令人担忧。

还有人称,自己对这种测试表示怀疑。因为GPT-4的表现会超过大多数人,所以很容易区分谁是人类,谁是人工智能。

研究者对此表示,这确实是我们遇到的一个问题。比如,GPT-4的知识储备「太丰富」或者掌握的语言太多。我们明确提示该模型避免这种情况,这在一定程度上是有效的。

参考资料:

https://x.com/camrobjones/status/1790766472458903926

https://x.com/emollick/status/1790877242525942156

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
油价一夜大变!油价一夜大降超0.86元/升!4月21日油价或大幅下调

油价一夜大变!油价一夜大降超0.86元/升!4月21日油价或大幅下调

阿芒娱乐说
2026-04-18 10:16:52
一单200块幽灵蛋糕,罚了拼多多美团京东抖音电商七巨头35.97亿

一单200块幽灵蛋糕,罚了拼多多美团京东抖音电商七巨头35.97亿

黑企鹅观察
2026-04-17 21:42:51
暴力对抗执法,拼多多被监管重罚15.2亿,法定代表人领罚700万

暴力对抗执法,拼多多被监管重罚15.2亿,法定代表人领罚700万

新商业派
2026-04-17 22:51:46
旅行后,你对哪个城市祛魅了?网友:异域风情哈尔滨

旅行后,你对哪个城市祛魅了?网友:异域风情哈尔滨

夜深爱杂谈
2026-04-17 17:29:36
两回合0球0助,阿尔瓦雷斯的数据单

两回合0球0助,阿尔瓦雷斯的数据单

绿茵狂热者
2026-04-17 11:42:13
还剩6天!赖清德即将离岛,国台办定结局,解放军百艘战舰已陈兵

还剩6天!赖清德即将离岛,国台办定结局,解放军百艘战舰已陈兵

荷兰豆爱健康
2026-04-17 13:32:16
伊朗高级官员:伊美有望在数日内达成一项初步协议

伊朗高级官员:伊美有望在数日内达成一项初步协议

每日经济新闻
2026-04-18 08:05:29
50岁李小冉双马尾甜翻全网,老公徐佳宁:悔不该让她上节目

50岁李小冉双马尾甜翻全网,老公徐佳宁:悔不该让她上节目

童叔不飙车
2026-04-16 21:36:37
彻底撕破脸,美国副总统公开痛骂泽连斯基,乌克兰要被卖了

彻底撕破脸,美国副总统公开痛骂泽连斯基,乌克兰要被卖了

忠于法纪
2026-04-18 10:52:48
破防了!罗永浩因网友评论引热议,被网友戳中痛点,连发长文自证

破防了!罗永浩因网友评论引热议,被网友戳中痛点,连发长文自证

火山詩话
2026-04-17 10:37:56
签1亿合同才能上楼看演出?恒大歌舞团女团长:感恩许家印 但我没违规

签1亿合同才能上楼看演出?恒大歌舞团女团长:感恩许家印 但我没违规

林子说事
2026-04-17 12:25:28
搞投机钻营、结交政治骗子,辽宁本溪市人力资源服务中心原主任李傲松被“双开”

搞投机钻营、结交政治骗子,辽宁本溪市人力资源服务中心原主任李傲松被“双开”

界面新闻
2026-04-18 10:38:38
央视直播两场英超,利物浦可能失去欧冠资格,艰难时刻还没到来

央视直播两场英超,利物浦可能失去欧冠资格,艰难时刻还没到来

嗨皮看球
2026-04-18 10:37:53
比亚迪的全新插混SUV即将上市!外观年轻个性,综合续航超 1400km

比亚迪的全新插混SUV即将上市!外观年轻个性,综合续航超 1400km

小史谈车
2026-04-18 08:00:08
最新好感度排名蒋万安大幅领先,台名嘴:赖清德最该担心的就是他

最新好感度排名蒋万安大幅领先,台名嘴:赖清德最该担心的就是他

海峡导报社
2026-04-17 10:12:08
苏林搭火车回国,临走前向中国借飞机,越南出大事,烧毁2节列车

苏林搭火车回国,临走前向中国借飞机,越南出大事,烧毁2节列车

爱下厨的阿酾
2026-04-17 21:40:02
伊朗到现在都不敢相信,40天的血战,给自己打出了半个世纪的国运

伊朗到现在都不敢相信,40天的血战,给自己打出了半个世纪的国运

通文知史
2026-04-17 09:10:12
打脸来的太快!张萌六跪赵丽颖被拒,押1亿赌新人 输得底裤都没了

打脸来的太快!张萌六跪赵丽颖被拒,押1亿赌新人 输得底裤都没了

可乐谈情感
2026-04-18 00:25:37
以色列的大麻烦出现,黎巴嫩导弹覆盖全境,内塔尼亚胡越打越危险

以色列的大麻烦出现,黎巴嫩导弹覆盖全境,内塔尼亚胡越打越危险

漫步独行侠
2026-04-17 08:11:36
不愧中超本土标王:140万欧当红国脚表现完胜巴甲外援!

不愧中超本土标王:140万欧当红国脚表现完胜巴甲外援!

邱泽云
2026-04-17 23:12:46
2026-04-18 11:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14996文章数 66783关注度
往期回顾 全部

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

男子吐血抢救后死亡7.5小时用100余支止血针 家属质疑

头条要闻

男子吐血抢救后死亡7.5小时用100余支止血针 家属质疑

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

刘德华挚友潘宏彬离世 曾一起租房住

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

游戏
本地
房产
手机
公开课

《余火守护者》登陆Steam 横版基地防御战斗

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

房产要闻

重磅利好!2500个学位,海口滨江片区,要建九年一贯制学校!

手机要闻

消息称苹果首款折叠iPhone将推深靛蓝色,展开最薄处4.7毫米

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版