网易首页 > 网易号 > 正文 申请入驻

首个AI高考全卷评测结果发布,这个大模型排名第一

0
分享至

极目新闻记者 周丹

实习生 贺怡萍 魏文婧

6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,高于OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)。

语文和英语表现良好,数学不及格


极目新闻记者看到,上海人工智能实验室公众号文章介绍,高考覆盖各类学科及题型,这一面向人类设计的高难度综合性测试,目前普遍被研究者用于考查大模型的智能水平。2024年全国高考甫一结束,上海人工智能实验室的司南评测体系OpenCompass就选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。

本次评测采用全国新课标Ⅰ卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 “闭卷”性。全卷试题既包含选择、填空等“答案唯一性”题目,也包括简答、阅读理解及作文等主观题,在更加接近真实高考的环境中测试模型能力。大模型的成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。


评测结果显示,Qwen2-72B以语数外303分的总成绩,成为本次大模型高考“状元”,领先于GPT-4o(296分)及书生·浦语2.0文曲星(InternLM2-20B-WQX,295.5)。本次评测的另外三位大模型选手分别是法国AI创业公司Mistral的Mixtral 8x22B模型、零一万物公司的Yi-1.5-34B模型、智谱AI的GLM-4-9B、阿里巴巴的通义千问Qwen2系列的混合专家(MoE)模型Qwen2-57B-A14B,通义千问的MoE模型同样表现不俗,总分(254分)位列第四名。

上海人工智能实验室指出,大部分模型考生的语文、英语科目表现良好,但在数学方面还有很大的提升空间。

InternLM2-20B-WQX取得了数学单科的最高分,但仍未达到及格水平,表明大模型的数学能力存在较大提升空间。

后续将引入多模态大模型测评

与以往多采用高考客观题评测大模型的方式不同,在此次测试中,既有选择、填空等“答案唯一性”题目,也包括简答、阅读理解、作文等主观题,在更接近真实高考的环境中测试模型的能力。

为贴近高考评卷模式,研究团队邀请多位有阅卷经验的高中教师对主观题答案评分,每份考卷至少由3人分别打分。遇到评分悬殊的情况,老师们会进行复核,尽量做到评分公正,为人工智能学术界和产业界提供更有价值的参考指标。与真实的高考一样,所有大模型答卷均进行了匿名处理,避免阅卷教师产生“先入为主”的观念。

对于这些“AI考生”的语数外水平,老师们给出了中肯的评价——

语文评卷显示,大模型的现代文阅读理解能力普遍较强,但不同模型的文言文阅读理解能力差距较大。大模型写的作文更像问答题,虽有针对性,但缺乏修饰,几乎不用人类考生都会使用的举例论证、引用论证、名人名言等手法。多数大模型不理解“本体”“喻体”“暗喻”等语文概念。对于文章中的一些“潜台词”,大模型也无法完全理解。

数学评卷显示,大模型的主观题回答相对凌乱,解题过程有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力很强,但无法在解题过程中灵活运用。

大模型的英语整体表现良好,大模型写的英语作文普遍存在因超出字数限制被扣分的情况,而人类考生大多因为字数不够被扣分。

据了解,本次“大模型高考”答案生成脚本、各模型答卷、教师评分细节全部公开。后续,研究团队将在评测中引入多模态大模型,以考查模型应对更多题型的能力,并陆续发布覆盖不同学科和地区的完整高考评测。

(来源:极目新闻)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“一丝不挂”新舞蹈?惹争议,被摸下体更不害臊,金星质疑是对的

“一丝不挂”新舞蹈?惹争议,被摸下体更不害臊,金星质疑是对的

吃鱼思故渊
2024-05-16 21:48:21
权志龙香港参加活动变“权志凤”,打扮得像韩国那些菜市场大妈

权志龙香港参加活动变“权志凤”,打扮得像韩国那些菜市场大妈

圈里的甜橙子
2024-11-04 18:31:44
韩国总统尹锡悦作恶太多!给韩国人免签,但不让他飞越我们领空

韩国总统尹锡悦作恶太多!给韩国人免签,但不让他飞越我们领空

橘色数码
2024-11-04 12:15:19
开始找退路了?大选最后阶段,特朗普罕见发声:我猜可能会输!

开始找退路了?大选最后阶段,特朗普罕见发声:我猜可能会输!

看晓天下事
2024-11-04 15:09:33
男子未扶摔倒老人,遭家属上门索赔:你就是故意不付的,你必须赔

男子未扶摔倒老人,遭家属上门索赔:你就是故意不付的,你必须赔

大川哥
2024-11-03 20:40:46
曝1亿锋霸无意加盟曼联!红魔太乱,阿莫林不足以说服其挑战黑洞

曝1亿锋霸无意加盟曼联!红魔太乱,阿莫林不足以说服其挑战黑洞

罗米的曼联博客
2024-11-05 07:18:15
一个人可以厉害到什么程度?网友:父辈几代都被打过,还不敢还手

一个人可以厉害到什么程度?网友:父辈几代都被打过,还不敢还手

奇特短尾矮袋鼠
2024-11-04 13:37:14
从中国独立出去的5个国家,如今发展得怎样?有些国家后悔莫及

从中国独立出去的5个国家,如今发展得怎样?有些国家后悔莫及

谢小龙聊历史
2024-11-04 23:31:07
不懂个人资产的黄圣依,转身去读商学院,张泉灵的打抱不平好尴尬

不懂个人资产的黄圣依,转身去读商学院,张泉灵的打抱不平好尴尬

米椒娱乐
2024-11-04 10:12:22
“退出北约!绝不与俄为敌!”——这句话引发的国际巨震!

“退出北约!绝不与俄为敌!”——这句话引发的国际巨震!

星辰故事屋
2024-10-13 20:00:22
笑发财,大家消费都降级到了什么程度,网友的辣评直接笑死!

笑发财,大家消费都降级到了什么程度,网友的辣评直接笑死!

奇特短尾矮袋鼠
2024-11-05 09:48:10
安124飞抵珠海,机舱内带了一架苏57

安124飞抵珠海,机舱内带了一架苏57

三叔的装备空间
2024-11-04 14:56:23
家长群不雅视频后续!女方照片被扒,眼神很勾人,电话被打爆

家长群不雅视频后续!女方照片被扒,眼神很勾人,电话被打爆

魔都姐姐杂谈
2024-09-15 10:31:28
苏57抵华,意外曝光歼20一大底牌,连美空军都办不到

苏57抵华,意外曝光歼20一大底牌,连美空军都办不到

兵器展望
2024-11-04 19:39:53
前脚炸烂真主党,后脚千里奔袭胡塞,看以色列打出个新世界

前脚炸烂真主党,后脚千里奔袭胡塞,看以色列打出个新世界

近距离
2024-09-30 10:02:10
张艺谋力捧的女星,与富豪卷款61亿逃亡国外,永不回国!现在如何

张艺谋力捧的女星,与富豪卷款61亿逃亡国外,永不回国!现在如何

火之文
2024-11-04 17:37:16
最后24小时,哈里斯宣布将会获胜,手握3大优势,自信能入主白宫

最后24小时,哈里斯宣布将会获胜,手握3大优势,自信能入主白宫

影孖看世界
2024-11-04 23:35:15
杨议怒怼郭德纲三宗罪,称要为曹云金撑腰,侯耀华也来凑热闹

杨议怒怼郭德纲三宗罪,称要为曹云金撑腰,侯耀华也来凑热闹

小海娱计
2024-11-04 16:58:46
满分答案来了!全网老公都被一盒瑞士卷干沉默了,网友:还得是你

满分答案来了!全网老公都被一盒瑞士卷干沉默了,网友:还得是你

童童聊娱乐啊
2024-11-03 23:07:38
90年我当兽医,我赶公猪给寡妇家的母猪配种没配上,被她强留一周

90年我当兽医,我赶公猪给寡妇家的母猪配种没配上,被她强留一周

燕无衣
2024-09-06 08:10:05
2024-11-05 10:38:44
极目新闻
极目新闻
全球眼,中国心,瞭望者,思想家
258305文章数 923786关注度
往期回顾 全部

科技要闻

硅谷2024最疯狂投资:押注下一任美国总统

头条要闻

16岁少年疑被骗往缅北 父亲收蹊跷信息:你儿子很安全

头条要闻

16岁少年疑被骗往缅北 父亲收蹊跷信息:你儿子很安全

体育要闻

一个想改变中国足球的日本人

娱乐要闻

UP主影视飓风Tim官宣离婚,老粉天塌了

财经要闻

特朗普无牌可打

汽车要闻

轴距增加60mm还配副驾屏 一汽-大众探岳L正式下线

态度原创

数码
时尚
本地
家居
军事航空

数码要闻

顶配1.5万!AMD官方锐龙7 9800X3D主机开卖:可选RTX 40

谁来管管这100款秋冬美甲!怎么谁弄都好看!巨显手白!

本地新闻

云游中国|我与这座城市 合得来 不怕肥

家居要闻

摩登现代氛围 用色块勾勒空间

军事要闻

超强剧透 中国军号官微晒出新飞机官图

无障碍浏览 进入关怀版