网易首页 > 网易号 > 正文 申请入驻

AI大模型“高考”成绩公布:几乎都偏文,数学有点差,解题思路特别“轴”

0
分享至

2024年全国高考甫一结束,上海人工智能实验室旗下的大模型开源开放评测体系司南(OpenCompass)选取国内外7个AI大模型进行高考全科目测试,7名AI考生的试卷,由具有高考评卷经验的教师在不知考生身份的情况下判分。

日前,测试结果出炉:书生·浦语2.0系列文曲星大语言模型、阿里通义千问大模型Qwen2-72B以及GPT-4o的成绩在所有AI考生中位列前三。以今年河南省分数线为参考,这三名AI考生的文科成绩均超"一本线",理科成绩稳居"二本线"之上。

分析AI考生们交上的答卷,业内认为,在现阶段,大模型在解决记忆类和逻辑类难题时与人类有着天差地别的思考轨迹,但这也为此后AI的进化指明了方向。

语言类考试表现不俗,数学简答题成"越不过去的坎"

此次测试结果显示,AI考生都有些偏科,且貌似都是"文科生"。

7个大模型中,有4个在新课标I卷的英语测试中取得130以上的高分,其中GPT-4o拔得英语测试头筹,还在作文上得到了一位英语阅卷老师的欣赏,称其"句型丰富,语言无瑕疵",只是字数稍少,所以酌情扣1分。

此外,AI考生的语文新课标I卷答题表现也不错:在现代文阅读、古诗文阅读、名句默写和作文上均有高于70%的平均得分率。

AI通常被认为应该在逻辑思维方面有着出色能力,但此次测试中,AI考生面对数学新课标I卷几乎"全军覆没",得分均未达到总分的一半(即75分)。数学简答题更成了这群考生"越不过去的坎",五道简答题的平均得分率仅为18.9%。

复旦大学计算机科学技术学院教授张军平介绍,此次参加测试的AI考生都是语言类大模型,接受过语料库训练,因此在作答语言类试卷时较有优势。而在数理类科目的考查中,由于要求考生具有一定推理能力,而这项能力一直以来都是大模型的短板。

"快系统"思维模式,让AI考生不会"打草稿"

为啥AI考生会偏科,还偏得如此厉害?多位深耕人工智能领域的研究者指出,这和现阶段大模型的"思考"方式有很大关系。

"做题时,人一般是先形成解题思路,然后再作答。但AI则不然,不管三七二十一,直接硬做,做不出来再‘乱凑’。"上海人工智能实验室相关负责人告诉记者,数理类题目的解题过程有极高的不确定性,因此,人类考生通常会先在草稿纸上理清思路,再开始答题。而大模型则是依次生成文本,缺乏一种"打草稿"的能力,答题时如果它们一开始思路走偏,基本就没有挽回余地。

"AI考生和人类考生的这两种思维模式,分别可以类比为丹尼尔·卡尼曼在《思考,快与慢》中提出的‘快系统’和‘慢系统’。"张军平解释说,AI总是快速输出答案,运用概率运算模拟推理过程,而人类对问题的认识往往依赖经验积累,可以整体、宏观地看事物,所以也看得更深入些。

试卷上暴露的问题,也是AI发展的"新考卷"

在高考这场选拔赛上,人类暂时还是远超AI的。"组织AI大模型参加高考,是为了评测当前大模型的真实水平,找准问题,持续推进技术进步。"上海人工智能实验室相关负责人强调,AI考生的成绩同时暴露了大模型的优势及软肋,也为其未来的发展提出了许多值得思考的方向。

上海人工智能实验室相关负责人告诉记者,大部分模型尚不存在自行纠错的能力,做错了也要"硬闯"到底,甚至通过"胡说八道"圆回来。所以,提升纠错能力或许是未来大模型训练中需要格外注意的。

此外,大模型的"幻觉"仍然存在,它们会"一本正经"地虚构内容。"此次测试中,有的大模型会杜撰诗句,让部分阅卷老师误以为真的存在它们编出的某首诗,只是自己不知道。"人工智能实验室相关负责人补充,如何提升AI的可信度,仍然在路上。

  作者:张菲垭

文:见习记者 张菲垭 图:视觉中国 编辑:张菲垭 责任编辑:樊丽萍

转载此文请注明出处。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
看来美防长在华受刺激了,刚回国就准备再次访华,他准备一个人来

看来美防长在华受刺激了,刚回国就准备再次访华,他准备一个人来

安安说
2026-05-21 10:37:03
女总裁盯我简历五分钟,突然拨通电话:妈,我给你找到未来女婿了

女总裁盯我简历五分钟,突然拨通电话:妈,我给你找到未来女婿了

千秋文化
2026-05-20 20:29:18
韩国交易所启动KOSPI熔断机制

韩国交易所启动KOSPI熔断机制

澎湃新闻
2026-05-21 08:44:07
包工头宾馆约会情人,命根子被直接割掉,打电话给妻子:快来救我

包工头宾馆约会情人,命根子被直接割掉,打电话给妻子:快来救我

易玄
2026-05-20 15:46:36
跌懵了!北京天通苑房价大跳水,巅峰8.2万㎡,如今直接跌到5.6万

跌懵了!北京天通苑房价大跳水,巅峰8.2万㎡,如今直接跌到5.6万

科学发掘
2026-05-21 11:13:26
意媒致敬张雪:试驾后真服了!4000转开始猛往上冲 全程都很有劲

意媒致敬张雪:试驾后真服了!4000转开始猛往上冲 全程都很有劲

念洲
2026-05-21 06:49:02
英伟达业绩炸裂!净利润暴涨211%,9成收入来自数据中心,自研CPU将年入千亿

英伟达业绩炸裂!净利润暴涨211%,9成收入来自数据中心,自研CPU将年入千亿

芯东西
2026-05-21 10:12:45
周薪35万镑!34岁曼联巨星确定与迈阿密签约3年,兴奋将辅佐梅西

周薪35万镑!34岁曼联巨星确定与迈阿密签约3年,兴奋将辅佐梅西

我爱英超
2026-05-21 07:05:36
去一趟中国,美总统像变了个人?这样下去真的怕特朗普会抑郁了!

去一趟中国,美总统像变了个人?这样下去真的怕特朗普会抑郁了!

绝对军评
2026-05-21 08:12:36
广东茂名大坡镇遭暴雨山洪袭击,居民:通往市区的桥被冲垮,幸好洪水来之前学校放学了

广东茂名大坡镇遭暴雨山洪袭击,居民:通往市区的桥被冲垮,幸好洪水来之前学校放学了

潇湘晨报
2026-05-21 12:34:34
俞灏明罕见520亲口认了有小家庭!主持人小心翼翼,女方会不会又否认?

俞灏明罕见520亲口认了有小家庭!主持人小心翼翼,女方会不会又否认?

今古深日报
2026-05-21 09:58:19
陈克明鸡蛋挂面被指玩文字游戏,鸡蛋含量极低,客服回应:是鸡蛋风味面

陈克明鸡蛋挂面被指玩文字游戏,鸡蛋含量极低,客服回应:是鸡蛋风味面

新浪财经
2026-05-18 16:17:35
网传女骑手越来越多了,说明了什么?评论区炸锅…

网传女骑手越来越多了,说明了什么?评论区炸锅…

慧翔百科
2026-05-20 17:27:17
人民日报评价《给阿嬷的情书》,言辞犀利,狠狠打了冯小刚的脸

人民日报评价《给阿嬷的情书》,言辞犀利,狠狠打了冯小刚的脸

一娱三分地
2026-05-20 14:18:50
中老铁路国外段首次开展大规模钢轨打磨施工

中老铁路国外段首次开展大规模钢轨打磨施工

澎湃新闻
2026-05-20 11:30:31
“养肥了再杀”?一场持续70年的猎杀,可口可乐在印度到底有多惨

“养肥了再杀”?一场持续70年的猎杀,可口可乐在印度到底有多惨

老谢谈史
2026-05-20 17:29:57
14个死亡火化信息流出!一近百万人口区县,撕开生活两个扎心现实

14个死亡火化信息流出!一近百万人口区县,撕开生活两个扎心现实

火山詩话
2026-05-20 09:51:15
于娜节目自曝胖到230斤原因,跟妈妈住,不吃主食一顿吃5个菜

于娜节目自曝胖到230斤原因,跟妈妈住,不吃主食一顿吃5个菜

卷史
2026-05-21 11:11:04
博主“耿同学”再爆料:中南大学湘雅医学院某“杰青”论文造假!

博主“耿同学”再爆料:中南大学湘雅医学院某“杰青”论文造假!

总在茶余后
2026-05-21 07:04:07
反华言论遭反噬!清华AI天才怒辞职位,抗议将中国列为敌对国家

反华言论遭反噬!清华AI天才怒辞职位,抗议将中国列为敌对国家

触摸史迹
2026-05-21 01:19:24
2026-05-21 13:47:00
文汇报 incentive-icons
文汇报
华语世界高品质人文阅读平台
278381文章数 310069关注度
往期回顾 全部

科技要闻

好到离谱也不够!英伟达交出816亿美元营收

头条要闻

特斯拉监督版FSD登陆中国 急招测试技师:月薪最高3万

头条要闻

特斯拉监督版FSD登陆中国 急招测试技师:月薪最高3万

体育要闻

常住人口7000的小镇,拥有了一支德甲球队

娱乐要闻

同行吐槽汪涵野心重 爆雷37万人受损

财经要闻

英伟达业绩超预!指引再新高仍不够亮眼

汽车要闻

26.98万起步 看小鹏GX如何诠释一车多能以及满配的科技与豪华

态度原创

时尚
教育
本地
游戏
健康

全网首档挑战Al设备拍摄短剧现场直播!

教育要闻

收藏:2026高考29个概念解析!军校、专业级差、专项计划~

本地新闻

用云锦的方式,打开江苏南京

《深海迷航2》官方回应矿脉问题 下次更新会改善

专家:别把PRP当作“自体干细胞”

无障碍浏览 进入关怀版