网易首页 > 网易号 > 正文 申请入驻

首个AI高考全卷评测结果发布,这个大模型排名第一

0
分享至

极目新闻记者 周丹

实习生 贺怡萍 魏文婧

6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,高于OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)。

语文和英语表现良好,数学不及格


极目新闻记者看到,上海人工智能实验室公众号文章介绍,高考覆盖各类学科及题型,这一面向人类设计的高难度综合性测试,目前普遍被研究者用于考查大模型的智能水平。2024年全国高考甫一结束,上海人工智能实验室的司南评测体系OpenCompass就选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。

本次评测采用全国新课标Ⅰ卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 “闭卷”性。全卷试题既包含选择、填空等“答案唯一性”题目,也包括简答、阅读理解及作文等主观题,在更加接近真实高考的环境中测试模型能力。大模型的成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。


评测结果显示,Qwen2-72B以语数外303分的总成绩,成为本次大模型高考“状元”,领先于GPT-4o(296分)及书生·浦语2.0文曲星(InternLM2-20B-WQX,295.5)。本次评测的另外三位大模型选手分别是法国AI创业公司Mistral的Mixtral 8x22B模型、零一万物公司的Yi-1.5-34B模型、智谱AI的GLM-4-9B、阿里巴巴的通义千问Qwen2系列的混合专家(MoE)模型Qwen2-57B-A14B,通义千问的MoE模型同样表现不俗,总分(254分)位列第四名。

上海人工智能实验室指出,大部分模型考生的语文、英语科目表现良好,但在数学方面还有很大的提升空间。

InternLM2-20B-WQX取得了数学单科的最高分,但仍未达到及格水平,表明大模型的数学能力存在较大提升空间。

后续将引入多模态大模型测评

与以往多采用高考客观题评测大模型的方式不同,在此次测试中,既有选择、填空等“答案唯一性”题目,也包括简答、阅读理解、作文等主观题,在更接近真实高考的环境中测试模型的能力。

为贴近高考评卷模式,研究团队邀请多位有阅卷经验的高中教师对主观题答案评分,每份考卷至少由3人分别打分。遇到评分悬殊的情况,老师们会进行复核,尽量做到评分公正,为人工智能学术界和产业界提供更有价值的参考指标。与真实的高考一样,所有大模型答卷均进行了匿名处理,避免阅卷教师产生“先入为主”的观念。

对于这些“AI考生”的语数外水平,老师们给出了中肯的评价——

语文评卷显示,大模型的现代文阅读理解能力普遍较强,但不同模型的文言文阅读理解能力差距较大。大模型写的作文更像问答题,虽有针对性,但缺乏修饰,几乎不用人类考生都会使用的举例论证、引用论证、名人名言等手法。多数大模型不理解“本体”“喻体”“暗喻”等语文概念。对于文章中的一些“潜台词”,大模型也无法完全理解。

数学评卷显示,大模型的主观题回答相对凌乱,解题过程有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力很强,但无法在解题过程中灵活运用。

大模型的英语整体表现良好,大模型写的英语作文普遍存在因超出字数限制被扣分的情况,而人类考生大多因为字数不够被扣分。

据了解,本次“大模型高考”答案生成脚本、各模型答卷、教师评分细节全部公开。后续,研究团队将在评测中引入多模态大模型,以考查模型应对更多题型的能力,并陆续发布覆盖不同学科和地区的完整高考评测。

(来源:极目新闻)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1:4惨败!世界第74虽败犹荣,获1000万奖金,25岁门神创44年纪录

1:4惨败!世界第74虽败犹荣,获1000万奖金,25岁门神创44年纪录

阿超他的体育圈
2024-07-01 05:31:48
中国共产党党员总数达9918.5万名

中国共产党党员总数达9918.5万名

界面新闻
2024-06-30 10:37:42
俄乌还未停火!俄罗斯突发大事,绍伊古果然出事了?

俄乌还未停火!俄罗斯突发大事,绍伊古果然出事了?

笔墨V
2024-06-30 19:30:48
“北京海淀18年鸡娃终点:高考582分”,在一片喜报中格外令人唏嘘

“北京海淀18年鸡娃终点:高考582分”,在一片喜报中格外令人唏嘘

可达鸭面面观
2024-06-30 17:08:51
1年超1100万美元!39岁保罗将签约马刺:与波波会面决定联手文班

1年超1100万美元!39岁保罗将签约马刺:与波波会面决定联手文班

罗说NBA
2024-07-01 08:50:20
被打马赛克的杨颖彻底慌了!给辛巴带货,被恭维是顶流却满脸无措

被打马赛克的杨颖彻底慌了!给辛巴带货,被恭维是顶流却满脸无措

木子爱娱乐大号
2024-06-30 18:06:29
丑态百出!诅咒大熊猫灭绝的许秀中,被澳洲警察打了,假发都飞了

丑态百出!诅咒大熊猫灭绝的许秀中,被澳洲警察打了,假发都飞了

青栀伊人
2024-06-30 22:49:09
河南巩义有火箭坠落爆炸?估值百亿的商业航天公司回应了

河南巩义有火箭坠落爆炸?估值百亿的商业航天公司回应了

南方都市报
2024-06-30 21:06:17
突发噩耗!国羽小将张志杰去世,比赛中抽搐,令人惋惜,年仅17岁

突发噩耗!国羽小将张志杰去世,比赛中抽搐,令人惋惜,年仅17岁

草根体育
2024-07-01 04:23:37
突发!58岁董事长,被立案调查、实施留置!

突发!58岁董事长,被立案调查、实施留置!

证券时报e公司
2024-06-30 19:49:40
国羽小将亚青赛倒地抽搐!教练上场被阻止,国青3-2日本小组第一

国羽小将亚青赛倒地抽搐!教练上场被阻止,国青3-2日本小组第一

排球黄金眼
2024-07-01 01:24:03
2年7000万美元!哈登决定续约快船 湖人曾想用中产签下他

2年7000万美元!哈登决定续约快船 湖人曾想用中产签下他

罗说NBA
2024-07-01 06:10:36
家属担心患者被脑死亡冲进ICU闹事,原因是被要求捐赠器官!

家属担心患者被脑死亡冲进ICU闹事,原因是被要求捐赠器官!

兵叔评说
2024-06-30 19:03:25
西安交大李艺飞遭到质疑,西安交大评论区沦陷

西安交大李艺飞遭到质疑,西安交大评论区沦陷

微光年
2024-06-30 07:58:39
西安交大的瓜!毕业典礼,那位美貌与智慧并存的校花翻车了?

西安交大的瓜!毕业典礼,那位美貌与智慧并存的校花翻车了?

火山诗话
2024-06-29 07:55:28
欧洲杯8强诞生4席!2组对阵出炉:西德豪门大战 英格兰VS瑞士

欧洲杯8强诞生4席!2组对阵出炉:西德豪门大战 英格兰VS瑞士

念洲
2024-07-01 04:58:50
朱丹周一围带女儿面试小学!家住7万一平小区,选普通公办惹争议

朱丹周一围带女儿面试小学!家住7万一平小区,选普通公办惹争议

古希腊掌管月桂的神
2024-06-30 09:05:45
《星刃》性感女主私密部位细节逼真 让玩家感到惊讶

《星刃》性感女主私密部位细节逼真 让玩家感到惊讶

3DMGAME官方号
2024-06-29 18:22:06
问题开始严重了,国家队都开始抛盘了!

问题开始严重了,国家队都开始抛盘了!

翔哥说地产
2024-06-30 18:24:41
七一前夕,上海这位97岁老党员缴纳100万特殊党费

七一前夕,上海这位97岁老党员缴纳100万特殊党费

上观新闻
2024-07-01 07:02:11
2024-07-01 09:34:44
极目新闻
极目新闻
全球眼,中国心,瞭望者,思想家
211513文章数 911562关注度
往期回顾 全部

科技要闻

河南火箭坠落爆炸?商业航天公司回应了

头条要闻

"母亲出殡"当天还在直播 主播诈骗粉丝300万元获刑12年

头条要闻

"母亲出殡"当天还在直播 主播诈骗粉丝300万元获刑12年

体育要闻

欧洲杯8强已定4席:英格兰战瑞士 西德PK

娱乐要闻

白玉兰明星反应精彩 胡歌获奖唐嫣激动

财经要闻

副行长坠楼 西安银行业绩到底怎么样?

汽车要闻

小鹏MONA M03 7月3日首发 15万紧凑级

态度原创

房产
教育
亲子
时尚
军事航空

房产要闻

20亿!又有国企要卖海南资产!

教育要闻

小朋友作业还没写完,家长本来想辅导,结果把自己也给难倒了

亲子要闻

爸爸学带娃第4天

夏日新风尚:西装短裤,优雅高级又显瘦

军事要闻

卫星影像显示山东舰抵菲附近海域

无障碍浏览 进入关怀版