网易首页 > 网易号 > 正文 申请入驻

北京中考试卷出炉,来看九章大模型对决GPT-4o

0
分享至

继高考之后,各地中考也陆续落下帷幕。之前,多家机构和媒体用高考题评测大模型们的“高考成绩”,吸引了不少眼球。那面对中考题,尤其是大模型不太擅长的数学科目,又会有怎样的结果呢?

让我们以今年北京中考数学试卷为例,再测一下大模型们的答题实力吧!

今天的测试“选手”分别是国产九章大模型和GPT-4o大模型。九章大模型(MathGPT),是学而思自主研发,面向全球数学爱好者和科研机构,以解题和讲题算法为核心的大模型。此前在Matheval排行榜多个维度的评测中都排名第一。GPT-4o是由OpenAI公司研发,是国际上备受关注的大语言模型之一,除了自然语言处理,GPT-4o还具备一定的推理能力,能够处理需要逻辑分析和判断的问题。

究竟谁在这场“数学比拼”中更胜一筹,让我们一起看看。

一、先说结论

本次测试选择了2024年北京中考数学试卷中的17道题,分别是8道选择题、8道填空题以及1道解答题。

在测试题目的比拼中,九章大模型的正确率为85%,GPT-4o的正确率为75%。

【九章大模型(MathGPT)】 选择题8题,做对5题。 填空题8题,做对6题。 九章大模型总分 = 5 * 2分 + 6* 2分+1分 = 23分 (满分30分)
【GPT-4o】 选择题8题, 正确5题。 填空题8题, 正确5题。 GPT-4o总分 = 5* 2分 + 5* 2分 = 20分 (满分30分)

注:填空题的最后一题有两问共2分,答对一问记1分。

在这次AI比拼中,九章大模型凭借其在数学领域的专业优势,取得了较高的正确率。这表明在特定领域,尤其是数学解题,定制化的大模型能够展现出更强的性能。然而,两者在复杂图题上的表现都存在不足,说明在这类问题的逻辑推理和步骤展示上,AI仍有待提升。

从教育的角度看,AI大模型为学习者提供了及时反馈和考点解析,有助于增强学习体验和深度理解。但同时,AI的局限性也提醒我们,它目前还不能完全替代人类教师的角色,尤其是在精细化指导和情感交流层面。

未来,AI与教育的结合可能会推动教学模式的创新,如人机协同教学以及自适应学习路径等。要实现这些愿景,AI技术需要在保证准确性和普适性的同时,进一步增强其在复杂情境下的理解和应用能力。

二、测试方法

1、测试题目:2024年北京中考数学试卷选择题的第1-8题,填空题的第9-16题,解答题第26题。

2、由于数学解答题的评估涉及复杂的推理步骤和逻辑判断,直接评判模型答案的正确性较为困难。因此,本次测试的重点放在了选择题和填空题上,这些题目通常有明确的正确答案,便于公正地评估模型的解答能力。

三、选择题,难分伯仲


以一道经典的概率推论题为例,一起来看一下二者的分析过程

九章大模型如下作答:


GPT-4o分析思路:


四、填空题,九章大模型获胜


第14题,GPT-4o回答错误

九章大模型正确解答:


GPT-4o的分析过程:


第16题,均出现错误

九章大模型只答对了第一问,其分析过程:


GPT-4o两问均回答错误,其解答过程:



五、解答题

第26题,九章大模型最终答案正确。

九章大模型的分析过程:


GPT-4o最终答案有误,其分析过程:


  • 中考
  • AI
  • 数学


1、本文是 芥末堆网原创文章,转载可点击 芥末堆内容合作 了解详情,未经授权拒绝一切形式转载,违者必究;
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。

来源: 芥末堆

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2021年,林彪女儿77岁的林豆豆拄着拐杖,拖着病体参加四野子弟聚会!

2021年,林彪女儿77岁的林豆豆拄着拐杖,拖着病体参加四野子弟聚会!

年代回忆
2024-07-02 20:32:28
Woj:李凯尔3年2700万签换加盟勇士 森林狼获得二轮签互换权+现金

Woj:李凯尔3年2700万签换加盟勇士 森林狼获得二轮签互换权+现金

直播吧
2024-07-03 06:41:12
网红“夹包哥”被捅身亡后续:曝离异有个儿子,生前动态一语成谶

网红“夹包哥”被捅身亡后续:曝离异有个儿子,生前动态一语成谶

180°视角
2024-07-03 12:48:11
湖南水灾呼吁社会捐赠,为何人们变冷漠了?

湖南水灾呼吁社会捐赠,为何人们变冷漠了?

梦马笔谈
2024-07-02 20:05:53
最荒诞的救市大招来了!

最荒诞的救市大招来了!

财经锦河眼
2024-07-03 13:51:42
上将李尚福落马 曾是红二代 军中清廉模范 部下称其艰苦朴素

上将李尚福落马 曾是红二代 军中清廉模范 部下称其艰苦朴素

芒果的爱pMgf
2024-07-03 12:35:27
他挑拨称:仁爱礁冲突,是中国大陆在“彩排攻台”

他挑拨称:仁爱礁冲突,是中国大陆在“彩排攻台”

观察者网
2024-07-03 10:57:13
上海东方医院一医生被举报“传播病人下半身裸照”!院方回应

上海东方医院一医生被举报“传播病人下半身裸照”!院方回应

南方都市报
2024-07-03 16:22:22
济南机场海关在一入境旅客行李箱中查获品牌鞋60双,预估案值近15万元

济南机场海关在一入境旅客行李箱中查获品牌鞋60双,预估案值近15万元

鲁中晨报
2024-07-03 09:59:03
上海离婚预约爆满,人民日报的评论绝了:原来这才是好婚姻的真相

上海离婚预约爆满,人民日报的评论绝了:原来这才是好婚姻的真相

不二大叔
2024-07-02 21:26:42
最新!韩媒:韩国会请愿网站弹劾尹锡悦请愿文已超100万人联署

最新!韩媒:韩国会请愿网站弹劾尹锡悦请愿文已超100万人联署

环球网资讯
2024-07-03 14:52:19
张志杰姐姐回应世界羽联公告

张志杰姐姐回应世界羽联公告

界面新闻
2024-07-03 11:06:41
万万没想到!!!
联合国140:0通过涉中国决议!

万万没想到!!! 联合国140:0通过涉中国决议!

仰望沧海
2024-07-02 23:35:43
重庆一落马局长长期以“大哥”自居,充当“影子股东”聚钱敛财,获刑5年3个月

重庆一落马局长长期以“大哥”自居,充当“影子股东”聚钱敛财,获刑5年3个月

鲁中晨报
2024-07-03 15:19:09
一周时间内三“虎”被逮捕,两周前同时被中纪委开除党籍公职

一周时间内三“虎”被逮捕,两周前同时被中纪委开除党籍公职

南方都市报
2024-07-03 15:02:14
姜萍交卷了,试题公布!网友:宛若天书…

姜萍交卷了,试题公布!网友:宛若天书…

华人星光
2024-07-03 17:12:31
兰州大学决定将研究生搬至榆中校区,引发众多师生强烈不满

兰州大学决定将研究生搬至榆中校区,引发众多师生强烈不满

宁姐嘚啵嘚
2024-07-03 14:47:51
招工压力太大?网传苏州某公司要求从国内挖掘人力去越南做普工…

招工压力太大?网传苏州某公司要求从国内挖掘人力去越南做普工…

火山诗话
2024-07-03 06:32:15
NASA想要“合法”研究中国月壤

NASA想要“合法”研究中国月壤

奔流新闻
2024-07-03 14:52:38
英雄胡友平月薪仅3500,非日本人学校职员,媒体报道缺失3大信息

英雄胡友平月薪仅3500,非日本人学校职员,媒体报道缺失3大信息

公关界的007
2024-07-03 12:34:47
2024-07-03 19:18:44
芥末堆看教育
芥末堆看教育
面向教育行业的专业新媒体
27397文章数 78090关注度
往期回顾 全部

教育要闻

剑南春2024高考专题报道

头条要闻

NASA局长想合法研究中国月壤 曾极力支持"沃尔夫条款"

头条要闻

NASA局长想合法研究中国月壤 曾极力支持"沃尔夫条款"

体育要闻

欧洲杯最伟大的一次扑救,诞生了

娱乐要闻

刘亦菲唐嫣深夜晒照,美女贴贴好养眼

财经要闻

张军:房地产是经济收缩的受害者而非原因

科技要闻

吴世春:"中国大模型五虎"想跑出来非常难

汽车要闻

巴黎4S店价格对比 同款车型中国售价打对折

态度原创

手机
时尚
艺术
家居
军事航空

手机要闻

华硕 ROG 8 游戏手机官宣与《QQ 飞车手游》合作,7 月 13 日揭晓

今日热点:NCT127主打曲《WALK》;《长相思2》官宣上星......

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

家居要闻

温柔简约 浅色基调与明亮空间的协奏

军事要闻

美空军研发第六代战机陷入资金困境

无障碍浏览 进入关怀版