网易首页 > 网易号 > 正文 申请入驻

首个AI高考全卷评测结果发布,阿里通义Qwen2模型“语数外”总排名第一

0
分享至

2024年全国高考甫一结束,6月19日上海人工智能实验室发布首个AI高考全卷评测结果。

上海人工智能实验室的司南评测体系OpenCompass,选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试,分别是:

Mixtral 8x22B:法国AI创业公司Mistral于2024年4月17日开源的对话模型。

Yi-1.5-34B:零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型。

GLM-4-9B:智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。

InternLM2-20B-WQX:上海人工智能实验室于2024年6月4日开源的书生·浦语2.0系列文曲星大语言模型。

Qwen2-57B:阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型。

Qwen2-72B:阿里巴巴于2024年6月6日开源的72B稠密模型。


首个大模型高考全卷评测结果显示,Qwen2-72B、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过70%。其中,月初开源的阿里通义千问大模型Qwen2-72B,在语数外三科420分的满分中获得303分,排名第一。

上海人工智能实验室官方表示,高考覆盖各类学科及题型,同时因其开考前的“绝密性”,被视作中国最具权威的考试之一,成为评估考生综合能力的“试金石”。这一面向人类设计的高难度综合性测试,目前普遍被研究者用于考察大模型的智能水平。


此次评测,采用全国新课标I卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 “闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。

大部分模型“考生”语文、英语科目表现良好,但数学则是所有大模型的短板,平均得分率仅为36%。得益于研究团队在数学推理上的投入,InternLM2-20B-WQX取得了75分的最高分,超过所有受测模型。然而仍未达到及格水平,这表明大模型的数学能力存在较大提升空间。

据悉,本次“大模型高考”答案生成脚本、各模型答卷、教师评分细节全部公开。后续,研究团队将在评测中引入多模态大模型,以考察模型应对更多题型的能力,并陆续发布覆盖不同学科和地区的完整高考评测。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
成都蓉城4-0沧州雄狮,赛后评分:不是罗慕洛第1,是蓉城31号第1

成都蓉城4-0沧州雄狮,赛后评分:不是罗慕洛第1,是蓉城31号第1

侧身凌空斩
2024-06-30 21:35:03
刚刚,江苏发布洪水预警!常州雨停时间…

刚刚,江苏发布洪水预警!常州雨停时间…

中吴网
2024-06-30 20:35:54
他宣称要身披五星红旗砍杀日本儿童,你猜结果怎样

他宣称要身披五星红旗砍杀日本儿童,你猜结果怎样

陶舜财经
2024-06-30 00:05:03
黑客组织自曝已获角川1.5T数据 不付赎金就公布

黑客组织自曝已获角川1.5T数据 不付赎金就公布

3DMGAME官方号
2024-06-28 15:02:49
高考差2分无缘清华,母亲不甘请求重查试卷,卷上11字却让其彻底清醒!

高考差2分无缘清华,母亲不甘请求重查试卷,卷上11字却让其彻底清醒!

鱼乐星鲜事
2024-06-28 16:10:15
56岁江珊整容失败,长相一言难尽,曾经的“国民女神”如今怎样了

56岁江珊整容失败,长相一言难尽,曾经的“国民女神”如今怎样了

洛子帅品评
2024-06-30 19:46:19
导播太懂了!镜头对准帕尔默,他能登场拯救英格兰吗?

导播太懂了!镜头对准帕尔默,他能登场拯救英格兰吗?

直播吧
2024-07-01 00:44:06
比尔盖茨预言成真!芯片卖不动了,美国公司:中国不买了

比尔盖茨预言成真!芯片卖不动了,美国公司:中国不买了

嘿哥哥科技
2024-06-25 07:30:24
似水流年!06年世界杯的巅峰意大利,曾是多少人的青春……

似水流年!06年世界杯的巅峰意大利,曾是多少人的青春……

直播吧
2024-06-30 16:12:07
刘邦称帝后,想到了曾经的相好曹寡妇,但她不愿和刘邦回宫

刘邦称帝后,想到了曾经的相好曹寡妇,但她不愿和刘邦回宫

阿七说史
2024-06-28 16:45:55
原来傍大款这碗饭也不是谁都能吃的,网友:这泼天的富贵我接不了

原来傍大款这碗饭也不是谁都能吃的,网友:这泼天的富贵我接不了

花小萌和你聊情感
2024-06-30 01:39:31
2024年高考700分以上全国共有多少人?哪个省市比较多?

2024年高考700分以上全国共有多少人?哪个省市比较多?

爱下厨的阿椅
2024-06-29 18:25:40
吴艳妮技术优势完全发挥 逆转胜能力独步亚洲 去年短板变强力大招

吴艳妮技术优势完全发挥 逆转胜能力独步亚洲 去年短板变强力大招

威猛孟巍
2024-06-30 20:01:00
荒谬!美国要求保护阿姆斯特朗登月脚印,我国专家都笑了

荒谬!美国要求保护阿姆斯特朗登月脚印,我国专家都笑了

嘿哥哥科技
2024-06-29 17:42:12
大瓜!曝王星越疑似为国外女友买qqny,锤点太多恐难收场

大瓜!曝王星越疑似为国外女友买qqny,锤点太多恐难收场

娱乐圈宇桐
2024-06-30 21:56:33
等孩子上学后才发现,这2个月份出生的娃“最吃亏”,有科学依据

等孩子上学后才发现,这2个月份出生的娃“最吃亏”,有科学依据

禾禾妈爱学习
2024-06-29 22:33:45
北京地铁老人扒拉女生后续:老人不简单,邻居爆猛料,评论区炸锅

北京地铁老人扒拉女生后续:老人不简单,邻居爆猛料,评论区炸锅

影孖看世界
2024-06-30 12:58:54
比作死更可怕的是找死!英国被曝让法国收手,俄有一招制敌的本领

比作死更可怕的是找死!英国被曝让法国收手,俄有一招制敌的本领

娱乐温留
2024-06-30 22:50:45
人大附中一男孩成绩不理想,哭喊:我要复读!父母为18万费用发愁

人大附中一男孩成绩不理想,哭喊:我要复读!父母为18万费用发愁

朗威谈星座
2024-06-28 14:17:40
莫迪拒绝与普京会面,大幅削减俄武器进口,加大进口美制武器

莫迪拒绝与普京会面,大幅削减俄武器进口,加大进口美制武器

郑继永教授
2024-06-29 18:12:20
2024-07-01 03:28:49
周到上海
周到上海
服务资讯攻略
177757文章数 88671关注度
往期回顾 全部

科技要闻

河南火箭坠落爆炸?商业航天公司回应了

头条要闻

英格兰本届首次落后 施兰茨3球登顶射手榜

头条要闻

英格兰本届首次落后 施兰茨3球登顶射手榜

体育要闻

“意大利很弱”,不再是错觉了

娱乐要闻

白玉兰明星反应精彩 胡歌获奖唐嫣激动

财经要闻

A股上半年人均亏损1.2万 你亏了多少?

汽车要闻

小鹏MONA M03 7月3日首发 15万紧凑级

态度原创

教育
时尚
本地
房产
亲子

教育要闻

TTS新传论文带读:所有女性!!!我们终于被看见了!!终于被关注了!!

本周最美的是姜妍的体态!

本地新闻

冷知识:东北雪糕才是最早的网红雪糕

房产要闻

20亿!又有国企要卖海南资产!

亲子要闻

我要为自己打江山!!

无障碍浏览 进入关怀版