网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

2024-05-18 13:51:04　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子庸庸

【新智元导读】GPT-4通过图灵测试了！UCSD研究团队通过实证研究，人类无法将GPT-4与人类进行区分。而且，有54%的情况下，它被判定为人类。

GPT-4可以通过图灵测试吗？

当一个足以强大的模型诞生之后，人们往往会用图灵测试去衡量这一LLM的智能程度。

最近，来自UCSD的认知科学系研究人员发现：

在图灵测试中，人们根本无法区分GPT-4与人类！

论文地址：https://arxiv.org/pdf/2405.08007

在图灵测试中，GPT-4有54%的情况下，被判定为人类。

实验结果更是表明，这是首次有系统在「交互式」双人图灵测试中，被实证通过测试。

研究者Cameron R.Jones招募了500名志愿者，他们被分为5个角色：4个评估员，分别是GPT-4、GPT-3.5、ELIZA和人类，另一个角色就「扮演」人类自己，藏在屏幕另一端，等待着评估员的发现。

以下是节选的游戏，你能看出哪个对话框是人类吗？

图 1：人类审讯者（绿色）与证人（灰色）之间的部分对话

其实，这四段对话中，有一段是与人类证人的对话，其余都是与人工智能的对话。

首次开启受控「图灵测试」

过去74年里，人们进行了许多图灵测试的尝试，但很少进行过受控实验。

著名的Loebner奖是一项年度竞赛，然而从1990年首次举办一直到2020年，没有一个系统通过测试。

最近的一项大规模研究发现，人类在2分钟的在线对话中，识别一系列LLM准确率达到 60%。

迄今为止，还没有任何机器通过测试的「受控」实验演示。

为了测试人们是否有可能识破当前AI系统的欺骗行为，研究人员使用GPT-4进行了一次随机控制的双人图灵测试。

测试要求很简单，即人类参与者与人类、人工智能开启5分钟对话，并判断对话者是否是人类。

正如开篇所述，研究人员一共测评了3个模型——GPT-4、GPT-3.5，以及ELIZA。

针对前两个LLM，研究者通过改编GPT-4和GPT-3.5探索性研究中表现最佳的提示，来指示大模型如何去响应消息。

研究人员称，解释图灵测试的一个核心挑战是，系统表现出色可能源于两种原因：

- 一是出色地模仿人类

- 二是评判者过于轻信

后一种情况，常被称为ELIZA效应，即参与者甚至会将简单的系统也人性化。

ELIZA系统对于每个人来说，再熟悉不过了。

它是20世纪60年代的一款基于规则的简单聊天机器人，但用户发现自己也会将人类特征归因于它。

因此，在实验中，研究人员将ELIZA作为基线，一方面是为了从经验上量化ELIZA效应，另一方面也是为了在实验中进行操作检查。

那么，这项图灵测试的结果，具体如何呢？

GPT-4通过率54%

首先看一个重要的指标：通过率。

研究者将通过率定义为在游戏中，评估对象被评估者判定为人类的比例。

GPT-4的通过率为54%，超过了GPT-3.5（50%）和ELIZA基线（22%），但低于人类被试者（67%）。

评估对象通过率（左）和评估者信任度（右）。右图每个点代表一场游戏

这个结果其实并不令人意外，与研究初始阶段的设想基本相符合。

在试验之前，研究者就做出了几个假设：首先，假设人类在检测GPT-4方面的能力不会超过偶然性（50%）。

为了验证这一点，研究者拟合了一个逻辑回归模型来预测只有截距的通过率。

截距与0（z=0.14, p=0.482）没有明显差距，这表明GPT-4的通过率可以约等于50%。贝叶斯模型预测GPT-4截距的95%可信区间为-0.24-0.55（相当于44%-63%的通过率）。

这意味着，人类在面对GPT-4时，成功分辨的概率跟抛硬币差不多！

结果还证实了研究人员的第二和第三个假设：人类的通过率明显高于GPT-4的通过率（z=2.42，p=0.017），而GPT-4的通过率高于ELIZA的通过率（z=4.11，p<0.001）。

然而，与研究者的试验设想不一致的是：GPT-4和GPT-3.5的表现几乎差不多（z=0.497，p=0.619）。

在「伪装人类」这一块，打了个平手。

同样出人意料的是，那些自称更了解LLM工作原理的参与者并没有更成功地识别出LLM（z = -0.023，p = 0.869）。

在探索性分析中，研究者发现年龄对询问者的准确性有负面影响（z = -2.24，p = 0.025），但其他人口统计学变量（包括性别、教育水平和与聊天机器人互动的频率）则没有显著影响。

为什么会是这样的结果？让我们来分析一下背后的原因。

为了深入了解到底是什么在影响评估者的决策，我们对评估者使用的策略和他们为决策提供的理由进行了分类。

36%的评估者会与评估对象闲聊，询问一些个人细节或日常活动。

第二类和第三类最常用的策略是社交与情感（25%）——例如，询问评估对象的观点和经历，观察他们是否具备幽默感。

还有人侧重考察知识与推理（13%），包括有关数学、逻辑和常识的问题。

询问策略（左）和平均准确率（右）

为了对比每种策略的有效性，研究者计算了使用这些策略的平均准确率。

当评估对象问及对方有关人类经历（75%）、逻辑和数学（78%）或直接「指控」对方是人工智能（80%）时，通常会距离「正确答案」更近。

在游戏中，人工智能之所以会「露出马脚」，通常是因为评估者认为他们似乎在强迫自己扮演角色，要么过于随意，要么则缺乏个性。

而ELIZA 很容易「暴露」，主要是因为反应不自然和缺乏语境意识。

可以看出，无论是从参与游戏的志愿者所使用的策略还是决策理由来看，他们都更注重语言风格和社会情感因素，而不是更传统的智力范畴（知识和推理）。

这似乎反映出志愿者们的一个潜在假设——社会智能才是AI最无法模仿的人类特征。

图灵测试，过了

如何判断系统何时通过了图灵测试？

图灵在1950年的论文中预测，到本世纪末， AI系统将能够很好地玩模仿游戏，以至于审查员在5分钟的交流后，做出正确识别的机会不会超过70%。

这一结论，导致了AI的通过率是否能够达到30%，成为许多研究者的讨论目标。

然而，这个基准似乎是任意的，并且不清楚图灵是否将其作为成功的定义。

其实，50%的基线更加合理，因为它更能证明人类审查者，在识别AI方面并不比偶然性更强。

这一定义，与发现用户是否可以在在线互动中，可靠地识别其他人类这一目标尤为相关。

在研究者的预公开的分析中，通过使用ELIZA基线作为操作检查来解决这个问题。

只有当分析表明ELIZA的通过率低于概率，而GPT-4的通过率不低于概率的情况下，才能判定模型通过了测试。

而根据这一定义，GPT-4显然通过了这一版本的图灵测试。

此外，参与者的置信度得分和决策依据，都表明他们并非随意猜测：GPT-4是人类的平均置信度为73%（见图 2）。

网友讨论

有网友表示，如果我们要将图灵测试等同于智力，图灵测试就不是一个好的测试。然而，AI几乎始终可以「欺骗」人类的事实有点令人担忧。

还有人称，自己对这种测试表示怀疑。因为GPT-4的表现会超过大多数人，所以很容易区分谁是人类，谁是人工智能。

研究者对此表示，这确实是我们遇到的一个问题。比如，GPT-4的知识储备「太丰富」或者掌握的语言太多。我们明确提示该模型避免这种情况，这在一定程度上是有效的。

参考资料：

https://x.com/camrobjones/status/1790766472458903926

https://x.com/emollick/status/1790877242525942156

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

中俄元首签署联合声明

央视新闻 2026-05-20 14:30:22
1615 跟贴 1615
一买家网购45把一次性雨伞，使用后全损退货，伞全部损坏且写有学生姓名

中原网 2026-05-20 17:09:03
209 跟贴 209

美国记者打卡甘肃熔盐塔式光热电站 “这就是中国为何能抵御能源冲击”

海外网 2026-05-20 16:18:21
837 跟贴 837

执教申花百场之夜，却赢不了保级队，斯卢茨基自称正处“执教生涯最困难时刻”

文汇报 2026-05-21 04:03:18
21 跟贴 21
耿同学：学术打假专挑有人才“帽子”的人

新京报 2026-05-20 09:46:03
391 跟贴 391

知名饮料标注“特选奉化水蜜桃” ，实际添加0.01克！读懂标签和配料表

上观新闻 2026-05-20 13:51:27
169 跟贴 169

小鹏GX正式上市小鹏坦言这次定价很难

红星新闻 2026-05-20 23:09:09
30 跟贴 30
央视315报道涉中医药事件查处进展

界面新闻 2026-05-20 15:48:37
422 跟贴 422

“100%椰子水”再调查：又有5款送检产品均显示“外源水、糖添加”

闪电新闻 2026-05-20 17:30:54
933 跟贴 933
盒马误将水仙当百合配送致顾客中毒官方处罚了

看看新闻Knews 2026-05-20 18:03:04
46 跟贴 46
阿森纳时隔22年再夺英超冠军

上观新闻 2026-05-20 10:47:08
105 跟贴 105
张雪首度谈及签约德比斯原因：他赛道经验丰富

纵览新闻 2026-05-20 16:52:59
235 跟贴 235
今年前4个月全国一般公共预算收入同比增长3.5%

央视新闻客户端 2026-05-20 16:53:49
468 跟贴 468
瑞幸咖啡酒精特调上架初中生轻松买到

界面新闻 2026-05-19 22:04:05
361 跟贴 361
“520”当天，婚姻登记处一大早已排起长龙，新人凌晨5点来排队

星视频 2026-05-20 09:16:08
163 跟贴 163
5月LPR报价出炉：5年期和1年期利率均维持不变

财联社 2026-05-20 09:03:52
394 跟贴 394
新能源车！涨价！

日照日报 2026-05-21 07:04:38
0 跟贴 0
多家上市公司实现“摘星脱帽”

财联社 2026-05-21 06:54:12
10 跟贴 10
"6:0"前"9:0" 歼10CE凭什么吊打欧洲双雄？

看看新闻Knews 2026-05-20 20:06:07
0 跟贴 0
南昌莲塘一小区酒吧占用公共区域违建，市民投诉3次连遭推诿，部门回应澄清“包庇”质疑，明确整改节点

新浪财经 2026-05-21 07:28:07
0 跟贴 0
河南一景区现“爬不动了吧哈哈哈哈”标语，游客感觉不被尊重，景区：已撤除，本意是缓解爬山压力

极目新闻 2026-05-19 14:48:26
0 跟贴 0
福建杨梅“泡药”风波下，浙江仙居姑娘一段视频火了：父亲种树40年只为那7天的酸甜，“从小到大只见过我爸哭一次，因为杨梅树倒了”

极目新闻 2026-05-20 18:30:13
0 跟贴 0
桂林阳朔公开回应“个别米粉店区别对待游客”：该店涉嫌区别对待消费者、标价不全，已对其立案调查，要求依法整改，将依法从严顶格处罚

极目新闻 2026-05-21 07:34:37
0 跟贴 0

跟随子女去了趟台湾，实话实说，台湾人的生活，简直让我超级羡慕

跟随子女去了趟台湾，实话实说，台湾人的生活，简直让我超级羡慕

芳姐侃社会

2026-05-20 18:23:56

1990年，作家三毛到新疆和76岁的王洛宾同居，王洛宾说：“可以同居，不可以发生关系！

1990年，作家三毛到新疆和76岁的王洛宾同居，王洛宾说：“可以同居，不可以发生关系！

犀利辣椒

2026-05-20 06:23:07

新婚15天，就爆不伦！人妻私讯：穿最色内裤求欢，床照全网疯传！

新婚15天，就爆不伦！人妻私讯：穿最色内裤求欢，床照全网疯传！

川渝视觉

2026-05-18 08:58:21

乔迪：重庆铜梁龙的主场非常漂亮，但场地条件实在是太差了

乔迪：重庆铜梁龙的主场非常漂亮，但场地条件实在是太差了

懂球帝

2026-05-21 00:08:07

药水泡杨梅的黑心商户，说了一句特别精彩的话

药水泡杨梅的黑心商户，说了一句特别精彩的话

阿振观点

2026-05-20 10:14:23

特朗普访华成果落地，中国购买200架波音，换C919发动机供应保障

特朗普访华成果落地，中国购买200架波音，换C919发动机供应保障

麓谷隐士

2026-05-21 00:09:43

仔细分析：马刺队比雷霆队强的2个原因

仔细分析：马刺队比雷霆队强的2个原因

好火子

2026-05-21 04:44:02

云南一医院发生一级甲等医疗事故

云南一医院发生一级甲等医疗事故

护士网

2026-05-20 23:15:40

过去 30 年都搞不定的底盘，为何理想蔚来比亚迪就能从玄学变标配

过去 30 年都搞不定的底盘，为何理想蔚来比亚迪就能从玄学变标配

电科技网

2026-05-20 15:44:40

杨梅暴跌商家哭诉！一天亏30万没人买，将身份证贴杨梅上也没用

杨梅暴跌商家哭诉！一天亏30万没人买，将身份证贴杨梅上也没用

智慧生活笔记

2026-05-21 00:56:56

顶级车模：不是站在车旁，是站在自己心里

顶级车模：不是站在车旁，是站在自己心里

疾跑的小蜗牛

2026-05-20 23:16:19

再爆大瓜！上海交大“私吞奖金”女主，网传父亲被扒是央企一把手

再爆大瓜！上海交大“私吞奖金”女主，网传父亲被扒是央企一把手

鬼菜生活

2026-05-20 20:37:11

1.72亿英镑！曼联分红仅次于阿森纳曼城，今夏3位置已定顶级新援

1.72亿英镑！曼联分红仅次于阿森纳曼城，今夏3位置已定顶级新援

体坛鉴春秋

2026-05-20 18:24:37

美股半导体板块大涨，英特尔一度涨近10%，AMD涨超5%；段永平最新美股持仓披露：折合人民币1362亿元丨美股开盘

美股半导体板块大涨，英特尔一度涨近10%，AMD涨超5%；段永平最新美股持仓披露：折合人民币1362亿元丨美股开盘

每日经济新闻

2026-05-20 22:53:02

埃弗顿定2队命运！客场放水=让西汉姆降级，赢球或送热刺去英冠

埃弗顿定2队命运！客场放水=让西汉姆降级，赢球或送热刺去英冠

体育知多少

2026-05-21 07:11:56

520官宣离婚，牛！

阿讯说天下

2026-05-20 12:21:29

浙江女教师劝架被学生用镊子戳伤眼，涉事女生家长在第一次调解后也不再理会她；当事人再发声：希望对涉事女生给予处分并启动矫治学校程序

浙江女教师劝架被学生用镊子戳伤眼，涉事女生家长在第一次调解后也不再理会她；当事人再发声：希望对涉事女生给予处分并启动矫治学校程序

扬子晚报

2026-05-20 20:22:31

紧急提醒！看到立即上报，成都街头已出现

紧急提醒！看到立即上报，成都街头已出现

环球网资讯

2026-05-20 19:31:09

扬眉吐气！日韩越媒体同时大赞中国U17：黄金一代已经到来

扬眉吐气！日韩越媒体同时大赞中国U17：黄金一代已经到来

邱泽云

2026-05-20 15:09:25

比油车销量下滑更严峻：连县城的普通民众，也纷纷开始舍弃油车

比油车销量下滑更严峻：连县城的普通民众，也纷纷开始舍弃油车

丁丁鲤史纪

2026-05-19 17:53:44

AI产业主平台领航智能+时代

15261文章数 66877关注度

往期回顾全部

科技要闻

一文看懂谷歌I/O2026：谷歌打响智能体大战

头条要闻

店主买熊猫摆件放门口被索赔10万:为何不告卖家只告我

头条要闻

店主买熊猫摆件放门口被索赔10万:为何不告卖家只告我

体育要闻

尼克斯赢下最窒息的一场翻盘，场场都是逆天局

娱乐要闻

王菲“没事儿”，成年人学不来的松弛

财经要闻

英伟达业绩超预！指引再新高仍不够亮眼

汽车要闻

26.98万起步看小鹏GX如何诠释一车多能以及满配的科技与豪华

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

手机

数码

公开课

军事航空

本地新闻

用云锦的方式，打开江苏南京

手机要闻

vivo S60、OPPO Reno16、荣耀600同台竞技！中端影像机三选一太难

数码要闻

1999元！小米推出米家无线吸尘器4 Max：15万转电机、100天免倒尘

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

俄媒盛赞中国军人：身姿挺拔站如松柏

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版