网易首页 > 网易号 > 正文 申请入驻

GPT-4顶替大学生参加考试,94%作弊未被揭穿!AI作弊毫无破绽

0
分享至


新智元报道

编辑:编辑部

【新智元导读】真实的大学考试,已经被AI渗透了!英国雷丁大学的一项研究发现,在大学考试中,有94%的AI生成内容完全没有被老师发现。也就是说,如果学生真的有心用GPT-4作弊,大概率会获得好成绩,而且很难被发现。

AI大模型参加考试,已经通过图灵测试!


调查显示,94%的AI内容,完全不会被大学老师发现。


而且「AI同学」的成绩,83.4%的情况下显著高于人类学生。

看来,AI真的是要把人类的考试给攻陷了。


其实,早在GPT-4发布时,OpenAI就声称,它能在SAT的阅读和数学考试中分别打败93%和89%的人类。

虽然数字让人震惊,但技术报告中并没有披露这些数据是如何得到的,以及实验的具体设置如何。这大大削弱了数据的可信度。

之前虽然也有很多关于AI参与考试作弊的研究,但它们大多是在实验环境中得出数据,与真实情景还是有所差距。

但最近英国的研究人员在现实的大学考试中为AI做的这次「图灵测试」,已经将实验过程和数据以论文的形式发布了出来。


https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305354

结果发现,虽然我们每天抱怨AI生成的文本「一眼假」,但实际上大学老师也很容易它蒙混过去,有94%的AI生成内容——完全没有被发现!

此外,AI内容的平均水平也显著高于人类同学,差距大概是半个等级。在83.4%的情况下,AI的成绩高于随机选择的学生。

这就让人类真实的颤抖了……

这也就意味着,AI的「以假乱真」程度再次被证实,在能力上不仅可以替代掉打工人,还在认知任务上完全碾压了大学生。

那么论文到底是如何描述这次「碾压」的?我们先来看看具体过程。

「伪装」过程

描述这种在真实世界中进行的「图灵测试」,画面感强到像是真人秀现场。

团队选中了英国雷丁大学的心理学和临床语言科学学院,但完全没有告知考试评分员。除了参与批准研究的人和负责帮助AI伪装成学生的行政人员,没有人知道这项正在开展的研究。

在COVID之后,像很多英国大学一样,雷丁大学也更多地转向线上考试。学生在规定时间中完成题目或论文,而且是完全的开卷模式,参考课程材料、论文、书籍、互联网材料都是被允许的。


这项考试共有两种题型,一是简答题(SAQ),2.5小时内完成,从6个问题中任选4题回答,答案不超过200词;二是论文题(Essay),从3~4个题目中任选其一,在8小时内完成一篇1500词的论文。

每个考试模块中都混入了约占总数5%的AI生成内容。这个比例不会造成额外的评分负担,也让两位作者能够在规定时间内确保提交的AI内容没有出现自相似情况,否则会很容易被判定为抄袭。


实验中的5个部分,P表示考试的学生年级,M表示考试内容模块

作者使用标准化的提示词让GPT-4生成每种类型考试的答案。对于简答题(SAQ),提示词是:

包括对学术文献的引用,但不需要单独的参考文献部分,请用160词回答以下问题:XXX

对于论文题,提示词是:

包括对学术文献的引用,但不需要单独的参考文献部分,请写一篇2000词的文章回答以下问题:XXX

在与GPT-4打交道时,作者发现模型经常不遵循提示中关于字数的要求。简答题总超字数,论文又写不到规定长度,因此调整了提示词中的字数。

为了保证AI的「真实性」,GPT-4生成的内容被100%原汁原味地搬运到试卷上,作者没有添加过渡文字或用任何方式修改文本内容,最大的改动就是为论文添加必要格式,或者删去模型径自生成的免责声明和参考文献。

总而言之,原则是保证100%的AI书面答案,但要在其他地方「藏好尾巴」,防止评分人员看出破绽。

如何评分

考试按照表2中的分级规则进行评分。雷丁大学评估考试分数的流程比较复杂,涉及多个步骤和评分角色。

首先,由一名评分员对提交内容进行打分,标准是看学生在多大程度上达到了评估目标。

之后,分数会呈递给一位独立审核员,他负责考量所有提交内容的整体水平,并随机选取、阅读一部分作业,同时也要过目那些第一名评分员标记为不及格或潜在学术不端的作业。

此时,审核员的角色不是对作业进行二次评分,而是审查评分的质量、一致性和适当性。

有些模块需要多个评分员共同打分。在这部分工作开始前,评分团队会进行一次「校准会议」,通过对少量作业进行评分以及比较、讨论,评分员们需要对于如何应用评分标准达成一致。

此时,审核员依旧要发挥作用,对同一内容中不同评分员给分的一致性进行检查。


这项研究进行于2023年夏季,当时ChatGPT已经发布,评分员们有什么检测AI作弊的方法吗?

当时,还没有自动检测工具,评分员们只能依靠自己的直觉和经验,比如1)检查答案是否「好得难以置信」,写作风格、内容水平有没有完全超出了对本科生能力的预期,2)答案的主要内容是否为课上未教授内容,3)引用的参考文献与内容本身无关。

这些经验听起来相当靠谱,甚至是比较好地捕捉到了AI生成文本的特征。但结果发现,人类的直觉终究是靠不住的。


实验结果

多少被发现了?

在这项研究中,只要评分员将作业标记为「值得关注」,可能存在某种形式的不良学术行为或学术不端,都不需要特别提到AI,就算是被检测到了。

即使规则如此宽松,检测成功的百分比依旧少得可怜。如图1和表3所示,在P2-M2和P3-M1的两个论文题目中,检测准确率甚至为零。也就是说,作者分别混入的14篇和3篇AI文章完全没有引起评分员的警觉。


图1:各模块中以及总体中,被标记为AI的百分比


表3:AI答案的检测统计数据

总体来看,AI提交的作业几乎无法检测,有94%的作业未被发现。

如果我们采用更严格的「检测」标准,要求标记时必须特别提到AI,那么97%的AI提交作业未被发现。


图2:各模块和总体中,被标记为AI的百分比

成绩如何?

将被检测出来的AI内容剔除后,作者比较了GPT-4和人类学生的分数分布情况。图3中,橙色表示人类学生,蓝色表示GPT-4。

可以看到,蓝色部分相比橙色部分整体右移,说明AI的成绩往往集中在真实成绩分布的高端,中位数对应First或者Upper Second等级。

其中P3-M1模块是一个例外,AI的成绩集中在真实分数分布的低端。但考虑到这个模块只混入了4篇AI内容,远少于其他模块,因此可能是数据过少造成的偏误。


图3:各模块真实(橙色)和AI(蓝色)的成绩频率直方图,以及所有模块的总成绩频率直方图

单独比较中位数则更能体现AI的优势,如图4所示,除了P3-M1模块略有落后,GPT-4的得分中位数完全超过了人类学生。


图4:各模块真实(橙色)和AI(蓝色)的成绩中位数,以及所有模块的总成绩中位数

平均来看,AI提交作业的成绩比真实学生高出半个等级以上,但在不同模块中有所不同(见图5)。

在P1-M2模块,AI整体上获得了1级成绩,差距接近一个完整的等级。


图5:各模块和总体中,AI提交的成绩相对于真实学生提交的成绩的优势

AI拿高分的概率有多大?

论文提出通过以下方法了解AI超越真实学生的可能性。对于每个模块的nm个AI提交作业,计算出在同一模块中,随机抽取nm个真实学生提交作业被AI提交作业超越的可能性,这里的「超越」依旧用中位数衡量。

具体过程如下:(1)随机选择nm个真实学生提交作业,(2)计算这些作业的中位成绩,(3)查看nm个AI提交作业的中位成绩是否高于这些成绩,(4)进行重复抽样,即所有真实学生提交作业在每次抽样中都保留在选择池中,并进行了10万次重抽样过程。

如图6所示,除P3-M1模块外,几乎所有模块中,随机选取的nm个真实学生提交作业被相同数量的AI作业超越的概率接近100%。例外的是P3-M1模块,其中AI提交作业在19%的情况下优于真实学生。

总体来看,各模块中随机选取的nm个真实学生提交作业AI超越的概率为83.4%。


图6:随机选择nm份真实学生的成绩,中位数低于AI成绩的概率

这一结果可以反映出,AI提交作业能非常稳定地获得比真实学生更高的成绩。从成绩直方图(图3)可以明显看出,AI提交作业的成绩往往集中在真实学生成绩分布的高端。

实际上,我们可以简单地计算每个模块(以及总体)中,有多少学生提交作业的成绩超过了AI的中位数成绩,如图7所示。

正如预期的那样,也与图6中的重抽样结果一致。总体来看,只有16%的学生提交作业成绩超过了AI在同一模块的中位数成绩。


图7:学生成绩高于AI的成绩中位数的百分比

成绩和可检测性的可视化

通过在二维空间中绘制数据,就可以全面了解AI获得的成绩,及其可检验性。

在下图中,x轴表示AI提交作业的可检测性,y轴表示AI提交作业的中位成绩。

研究者希望,数据可以位于某些特定区域。

其中,「最佳情况」是数据位于右下角,此时AI的可检测性为100%,但成绩为0%。

但从学术诚信的角度来看,另一种理想情况就是数据位于右上角。

这也就意味着——学生使用AI作弊,并且获得了100%的成绩,但我们能100%地检测到他们作弊了。

不理想的情况,就是数据位于左下角了,此时我们无法检测到AI的使用,但它的成绩为0%。

因此,使用AI作弊的学生可能会发现,自己做作业能获得更高的成绩,从而不再作弊。

最糟糕的情况是数据位于左上角,此时我们根本无法检测到AI的使用,但它却获得了100%的成绩。

显然,这是我们最不愿意看到的事。


图8:AI的可探测性及其达到的等级汇总

结论与讨论

在这次测试中,研究人员对GPT-4生成的文本内容没有进行任何修改。但现实世界的更可能的情况是,学生会对生成内容进行润色和调整,这会使学术不端行为更难被发现。

总体而言,这个结果是令人担忧的。GPT-4的能力让学生们可以在利用AI作弊的情况下很难被发现,而且有极高的概率能取得更好的成绩。


GPT-4在模块P3-M1的表现明显落后,这有两种可能的解释,一是数据不足导致的偏误,二是由于P3-M1的考试内容涉及更为抽象的逻辑推理,这也恰好是AI仍不擅长的领域。

从另一个角度来看,这也启发我们思考,应该如何看待,甚至是改革大学教育的目标与内容。

去年Nature的一篇论文就发现,AI在完成大学课程作业时,已经体现出信息搜索、集成以及批判性分析的能力,这可以完美构成大学培养目标的一部分。


https://www.nature.com/articles/s41598-023-38964-3

在评论区,有推特网友质疑,这项研究怕不会也是AI进行的吧?

对此,作者郑重承诺:研究内容绝对是人类进行的。

参考资料:

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305354


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄罗斯没收19万件汽车和笔记本电脑

俄罗斯没收19万件汽车和笔记本电脑

亡海中的彼岸花
2024-06-29 16:15:06
西交大美女毕业生被爆:论文靠别人代写,被同学称为“生化母体”

西交大美女毕业生被爆:论文靠别人代写,被同学称为“生化母体”

十三级台阶
2024-06-29 16:23:31
凌晨3点,葡萄牙决战黑马,3-0=进欧洲杯8强有戏,C罗冲击6大纪录

凌晨3点,葡萄牙决战黑马,3-0=进欧洲杯8强有戏,C罗冲击6大纪录

侃球熊弟
2024-06-30 06:57:56
疑似万茜老公出轨时间线曝光,已有其他女演员被波及

疑似万茜老公出轨时间线曝光,已有其他女演员被波及

木木夕木可
2024-06-28 13:38:23
欧盟妥协了?关税正式下调,德国的主张已经作废了!

欧盟妥协了?关税正式下调,德国的主张已经作废了!

娱乐圈的大爆炸
2024-06-29 18:50:38
红二代有很多,但能够获得上将军衔的,有四位,他们是谁?

红二代有很多,但能够获得上将军衔的,有四位,他们是谁?

熊熊说历史
2024-06-29 19:25:30
乌克兰国防部正式宣布摧毁了位于克里米亚半岛的俄太空通信中心

乌克兰国防部正式宣布摧毁了位于克里米亚半岛的俄太空通信中心

随波荡漾的漂流瓶
2024-06-29 15:47:28
重罚禁赛阿根廷教练!南美足联出手,迟到就得受罚,梅西无力回天

重罚禁赛阿根廷教练!南美足联出手,迟到就得受罚,梅西无力回天

嘴炮体坛
2024-06-29 13:47:56
小南斯妻子抱怨:大晚上搞交易想杀了我?老娘一人哄俩娃睡觉

小南斯妻子抱怨:大晚上搞交易想杀了我?老娘一人哄俩娃睡觉

直播吧
2024-06-29 11:14:11
欧尔班将访问乌克兰改善关系,亚美尼亚参加北约峰会,俄盟友跳船

欧尔班将访问乌克兰改善关系,亚美尼亚参加北约峰会,俄盟友跳船

山河路口
2024-06-29 17:41:57
北大韦神外出游玩!和姐姐豪华餐馆吃饭,12岁外甥侧脸很像舅舅

北大韦神外出游玩!和姐姐豪华餐馆吃饭,12岁外甥侧脸很像舅舅

大宗看萌宠
2024-06-29 23:44:57
中国让步?换取欧盟不制裁电动汽车,外媒:中国或降大排量车关税

中国让步?换取欧盟不制裁电动汽车,外媒:中国或降大排量车关税

阿裤聊历史
2024-06-29 14:59:27
中国首个,正式开航!

中国首个,正式开航!

环球时报新闻
2024-06-29 19:44:22
黑纱超薄“学士服”走红,女生看内标签,另一种“用途”令人尴尬

黑纱超薄“学士服”走红,女生看内标签,另一种“用途”令人尴尬

妍妍教育日记
2024-06-29 18:52:39
对拜登大获全胜后,春风得意的特朗普宣布,美国没必要和中国为敌

对拜登大获全胜后,春风得意的特朗普宣布,美国没必要和中国为敌

说天说地说实事
2024-06-30 07:44:50
4年前听了张雪峰学土木建筑的同学们要毕业了

4年前听了张雪峰学土木建筑的同学们要毕业了

贩财局
2024-06-29 23:22:57
今日大到暴雨 还将影响周一早晨

今日大到暴雨 还将影响周一早晨

新民晚报
2024-06-30 08:00:04
于正再放临江仙剧照,冲着白鹿来的,我却被50+陈德容惊艳了

于正再放临江仙剧照,冲着白鹿来的,我却被50+陈德容惊艳了

小邵说剧
2024-06-29 19:59:28
0-1后!姆巴佩落寞,半决赛2中框+0进球,欧冠8年0冠带不动大巴黎

0-1后!姆巴佩落寞,半决赛2中框+0进球,欧冠8年0冠带不动大巴黎

体育知多少
2024-05-08 05:56:45
6月29日凌晨00:39,黄晓明,凌晨高调发文!

6月29日凌晨00:39,黄晓明,凌晨高调发文!

紫雨说娱乐
2024-06-29 16:22:44
2024-06-30 10:02:44
新智元
新智元
AI产业主平台领航智能+时代
11213文章数 65540关注度
往期回顾 全部

科技要闻

Meta低头,库克认错,XR设备还不相信高端

头条要闻

三国领导人密集访华 越南总理表态支持中国加入CPTPP

头条要闻

三国领导人密集访华 越南总理表态支持中国加入CPTPP

体育要闻

“意大利很弱”,不再是错觉了

娱乐要闻

白玉兰明星反应精彩 胡歌获奖唐嫣激动

财经要闻

A股上半年人均亏损1.2万 你亏了多少?

汽车要闻

小鹏MONA M03 7月3日首发 15万紧凑级

态度原创

游戏
本地
旅游
公开课
军事航空

《迷央十丁目》登陆Steam 类八番出口惊悚解谜

本地新闻

冷知识:东北雪糕才是最早的网红雪糕

旅游要闻

来中国旅游,成了老外的新流量密码

公开课

连中三元是哪三元?

军事要闻

白乌边境局势紧张 白俄官员称已准备好应对任何挑衅

无障碍浏览 进入关怀版