网易首页 > 网易号 > 正文 申请入驻

七大模型参加“高考”后分数出炉:文科上了一本线,理科只能上二本

0
分享至


AI考生语数外三科加起来最高能得303分

此前6月,上海人工智能实验室旗下司南评测体系OpenCompass发布了首个AI高考全卷评测结果,显示语数外三科加起来,AI考生最高能得303分,数学全不及格。

7月17日,OpenCompass进一步发布了扩大学科范围的测评,团队对7个AI大模型进行了高考9个科目的全科目测试,这样一来也就能与高考录取分数线作比较。

如果AI参加高考,能被什么大学录取?OpenCompass测试发现,大模型如果参加文科考试,最好的成绩能被“录取”到一本,而参加理科考试,则最多只能被二本“录取”(以今年高考人数最多的河南省的分数线为参考)。


AI大模型高考9个科目的全科目测试得分

此次测试的模型仍然来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室&商汤、法国Mistral的开源模型,以及来自OpenAI的闭源模型GPT-4o。

从总分来看,文科最高分是阿里通义千问大模型,以546分的成绩获得AI高考“文科状元”。理科最高分则是上海人工智能实验室&商汤联合研发的浦语文曲星,达到了468.5分。OpenAI的GPT-4o在文科上得分531,排名第三,理科得分为467,排名第二。

就评测结果的公正透明方面,相关人士介绍,大模型高考评测的生成答案的代码、模型答卷、评分结果完全公开,可供各界参考(公开评测细节可访问https://github.com/open-compass/GAOKAO-Eval)。

评测团队选取了河南省录取批次线作为参考,对比了大模型得分与对应分数线。总的来说,参考2024年河南本科批次录取线,表现最优的三个大模型文科成绩过一本,理科超二本。其他大模型文理科成绩均未达到二本线标准。

如果AI参加的是文科考试,那么通义千问、书生浦语文曲星、GPT-4o的文科成绩均超越一本线,展现了大模型在语文、历史、地理、思想政治等科目上深厚的知识储备和理解能力。


大模型“高考”分数对比-文科

如果AI参加的是理科考试,整体表现则会弱于文科,体现了大模型在数理推理能力上普遍存在短板,但前三甲的理科成绩也均超过二本分数线,“录取”上二本不成问题。


大模型“高考”分数对比-理科

团队表示,为更贴近真实高考情况,评测采用3(语数外)+3(理综/文综)的形式对大模型进行了全科目测试。评测过程中,所有纯文本题目由大语言模型作答,而综合科目中的带图题目,则由对应团队开源的多模态大模型回答。

测评发现,对于纯文本题目,大模型平均得分率可达64.32%,而面对带图题目,得分率仅有37.64%。在图片理解和运用能力方面,所有大模型均存在较大提升空间。

此外,部分大模型已达到一本分数,经过再训练,是否可达到顶尖高校录取线水平?完成阅卷后,老师们一致认为,大模型与真人考生仍存在差距,虽然对于基础知识的掌握表现出色,但在逻辑推理和知识灵活应用方面,大模型仍然差强人意。

具体而言,在作答主观题时,大模型往往无法完整理解题干,不明白代词指向,结果导致答非所问;解答数学题时,解题过程机械且逻辑性差,对于几何题,常出现与空间逻辑相违背的推断;对物理、化学实验理解肤浅,无法准确识别并运用实验器材。此外,大模型也会伪造虚构内容,编造看似合理但实际不存在的诗句,或在存在明显计算错误的情况下之后不反思,“硬着头皮蒙”一个答案,均给阅卷老师带来了困扰。

在公开评测细节中,第一财经记者发现收录了一些阅卷老师的点评。

理科数学老师点评称,大模型做题总体感觉很机械,大部分题目都无法通过正常的推理过程得出。例如填空题第一题,大模型都只能进行到少部分过程而达到一个结果,并不能够像考生做题一样进行全面分析,列出完整的计算过程达到正确结果。大模型的基础公式记忆能力较为优秀,但无法做到灵活使用。此外有些题目结果正确,但过程逻辑差不符合正规计算,导致阅卷比较困难。

地理老师认为,大模型在答题过程中展现了对地理知识的全面覆盖,从自然地理到人文地理,从地理现象到地理规律,都能有所涉及。尤其在基础知识点的考查上较为出色,然而,在涉及一些深入分析或推理的问题中,存在一定的偏差和遗漏,所以模型在面对非常规、开放性较强的问题时,其表现较差。

物理老师发现,大模型总体感觉比较机械,很多都无法识别到题目的意思,有些选择题即使选项对了,但是分析也是错误的。一些大题步骤冗杂,并且没有逻辑,常常出现将本次的结论带入到推理出本次结论的证据中,如此循环,没有道理。

阅卷老师们认为,相对于人类考生,目前大模型依然存在较大局限性。

栏目主编:张武 文字编辑:董思韵 题图来源:图虫 图片编辑:徐佳敏

来源:作者:第一财经

责任编辑:胡淑丽_MN7479

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
兵不血刃!勇士104:89再胜鹈鹕,一战彻底认清了5个现实问题!

兵不血刃!勇士104:89再胜鹈鹕,一战彻底认清了5个现实问题!

田先生篮球
2024-10-31 13:39:04
央视惊天内幕!知名主持董郁玉被捕,潜伏多年的日本间谍

央视惊天内幕!知名主持董郁玉被捕,潜伏多年的日本间谍

杨哥历史
2024-10-28 14:34:06
认知的4大境界:达到第3大层次就是开悟,你将不再有精神内耗

认知的4大境界:达到第3大层次就是开悟,你将不再有精神内耗

失语者云骧
2024-09-13 19:49:11
印尼主帅申台龙:本来应该和中国队打平 对巴林的比赛被偷走了2分

印尼主帅申台龙:本来应该和中国队打平 对巴林的比赛被偷走了2分

直播吧
2024-10-30 19:30:09
山东某土豪当街暴打开路虎女子,路人透露:那是他女儿,打死最好

山东某土豪当街暴打开路虎女子,路人透露:那是他女儿,打死最好

神奇的锤子
2024-09-05 15:39:55
斯科尔斯:阿莫林的出身有点像当初的滕哈赫,但葡超比荷甲强一点

斯科尔斯:阿莫林的出身有点像当初的滕哈赫,但葡超比荷甲强一点

直播吧
2024-10-31 01:41:07
小米su7车主这事无比扎心了,徐某聪跑了,康某被抓了,曹某没了

小米su7车主这事无比扎心了,徐某聪跑了,康某被抓了,曹某没了

辣条小剧场
2024-10-31 02:01:53
泰国男模亲口讲述被玩成废人的经历,福利多但也令人发指

泰国男模亲口讲述被玩成废人的经历,福利多但也令人发指

千山万松
2023-09-28 14:32:27
淫邪法器“肉莲花”,活剥少女人皮…揭秘西藏庙宇深处恐怖秘辛!

淫邪法器“肉莲花”,活剥少女人皮…揭秘西藏庙宇深处恐怖秘辛!

吴学华看天下
2023-11-10 17:18:02
凭一张“尺度照”撩疯全网直男,这个语文老师真是YYDS~

凭一张“尺度照”撩疯全网直男,这个语文老师真是YYDS~

书画艺术收藏
2024-10-29 19:00:07
台风大转弯!“康妮”今天中午前后登陆台湾!泉州紧急提醒.....

台风大转弯!“康妮”今天中午前后登陆台湾!泉州紧急提醒.....

惠安生活圈
2024-10-31 10:45:21
今晚19点35分!弗格领衔外援大战 沙约克能否强势反弹?

今晚19点35分!弗格领衔外援大战 沙约克能否强势反弹?

狼叔评论
2024-10-31 03:04:06
46岁央视主持人顾国宁去世,经历过父母去世和离异,死因成谜

46岁央视主持人顾国宁去世,经历过父母去世和离异,死因成谜

社会酱
2024-10-29 16:44:48
为何有的人常年不给老人上坟?往往说明了家庭的3个真相

为何有的人常年不给老人上坟?往往说明了家庭的3个真相

农夫也疯狂
2024-10-30 11:41:37
小米一口气连发16款新品,从399到81.49万都有,哪一款是你的菜

小米一口气连发16款新品,从399到81.49万都有,哪一款是你的菜

接近真理玩数码
2024-10-30 11:04:07
看完魔都六年级孩子的英文作业,985中产妈自愧不如

看完魔都六年级孩子的英文作业,985中产妈自愧不如

阅读第一
2024-10-31 08:34:59
22年收养118名孤儿,感动中国的李利娟,最终被董明珠送进了监狱

22年收养118名孤儿,感动中国的李利娟,最终被董明珠送进了监狱

红色鉴史官
2024-10-30 08:00:03
当朋友爬到无法企及的高度,会拉你一把吗?评论区简直太真实了!

当朋友爬到无法企及的高度,会拉你一把吗?评论区简直太真实了!

滑稽斑马呀
2024-09-05 13:23:50
1斤值上万元!上海夫妇一晚抓121只,直接被捕上热搜!

1斤值上万元!上海夫妇一晚抓121只,直接被捕上热搜!

万象硬核本尊
2024-10-30 20:54:45
不是王芳!不是徐济成!姚明下课悬念终结,继任者太意外,天亮了

不是王芳!不是徐济成!姚明下课悬念终结,继任者太意外,天亮了

负角度的球
2024-10-31 12:17:24
2024-10-31 15:32:49
上观新闻
上观新闻
站上海,观天下
203376文章数 745979关注度
往期回顾 全部

科技要闻

任正非:华为要向美国学习开放、包容

头条要闻

客流断崖式下跌 上海设99个站点最长公交营收不够油费

头条要闻

客流断崖式下跌 上海设99个站点最长公交营收不够油费

体育要闻

换帅后首战!曼联5-2赢了 进英联杯8强

娱乐要闻

刘大锤曝两对明星偷偷领证结婚

财经要闻

减持!李嘉诚又出手了

汽车要闻

宋PLUS有对手啦?15万插电混动SUV又一新选择

态度原创

数码
艺术
亲子
旅游
手机

数码要闻

349元 超频三推出蜂鸟3 ITX机箱:全MESH网孔面板设计

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

亲子要闻

用家里的玩具给宝宝开party,比早晨的菜市场还热闹

旅游要闻

台湾“首来族”,四川145个景区对你们免除门票

手机要闻

苹果宣布Vision Pro下月将在韩国与阿联酋上市

无障碍浏览 进入关怀版