网易首页 > 网易号 > 正文 申请入驻

北京中考试卷出炉,来看九章大模型对决GPT-4o

0
分享至

继高考之后,各地中考也陆续落下帷幕。之前,多家机构和媒体用高考题评测大模型们的“高考成绩”,吸引了不少眼球。那面对中考题,尤其是大模型不太擅长的数学科目,又会有怎样的结果呢?

让我们以今年北京中考数学试卷为例,再测一下大模型们的答题实力吧!

今天的测试“选手”分别是国产九章大模型和GPT-4o大模型。九章大模型(MathGPT),是学而思自主研发,面向全球数学爱好者和科研机构,以解题和讲题算法为核心的大模型。此前在Matheval排行榜多个维度的评测中都排名第一。GPT-4o是由OpenAI公司研发,是国际上备受关注的大语言模型之一,除了自然语言处理,GPT-4o还具备一定的推理能力,能够处理需要逻辑分析和判断的问题。

究竟谁在这场“数学比拼”中更胜一筹,让我们一起看看。

一、先说结论

本次测试选择了2024年北京中考数学试卷中的17道题,分别是8道选择题、8道填空题以及1道解答题。

在测试题目的比拼中,九章大模型的正确率为85%,GPT-4o的正确率为75%。

【九章大模型(MathGPT)】 选择题8题,做对5题。 填空题8题,做对6题。 九章大模型总分 = 5 * 2分 + 6* 2分+1分 = 23分 (满分30分)
【GPT-4o】 选择题8题, 正确5题。 填空题8题, 正确5题。 GPT-4o总分 = 5* 2分 + 5* 2分 = 20分 (满分30分)

注:填空题的最后一题有两问共2分,答对一问记1分。

在这次AI比拼中,九章大模型凭借其在数学领域的专业优势,取得了较高的正确率。这表明在特定领域,尤其是数学解题,定制化的大模型能够展现出更强的性能。然而,两者在复杂图题上的表现都存在不足,说明在这类问题的逻辑推理和步骤展示上,AI仍有待提升。

从教育的角度看,AI大模型为学习者提供了及时反馈和考点解析,有助于增强学习体验和深度理解。但同时,AI的局限性也提醒我们,它目前还不能完全替代人类教师的角色,尤其是在精细化指导和情感交流层面。

未来,AI与教育的结合可能会推动教学模式的创新,如人机协同教学以及自适应学习路径等。要实现这些愿景,AI技术需要在保证准确性和普适性的同时,进一步增强其在复杂情境下的理解和应用能力。

二、测试方法

1、测试题目:2024年北京中考数学试卷选择题的第1-8题,填空题的第9-16题,解答题第26题。

2、由于数学解答题的评估涉及复杂的推理步骤和逻辑判断,直接评判模型答案的正确性较为困难。因此,本次测试的重点放在了选择题和填空题上,这些题目通常有明确的正确答案,便于公正地评估模型的解答能力。

三、选择题,难分伯仲

以一道经典的概率推论题为例,一起来看一下二者的分析过程

九章大模型如下作答:

GPT-4o分析思路:

四、填空题,九章大模型获胜

九章大模型正确解答:

GPT-4o的分析过程:

第16题,均出现错误

九章大模型只答对了第一问,其分析过程:

GPT-4o两问均回答错误,其解答过程:

五、解答题

第26题,九章大模型最终答案正确。

九章大模型的分析过程:

  • 中考
  • AI
  • 数学


1、本文是 芥末堆网原创文章,转载可点击 芥末堆内容合作 了解详情,未经授权拒绝一切形式转载,违者必究;
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。

来源: 芥末堆

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泽连斯基:3800 名朝鲜士兵死伤,明年春天再派遣 8,000 名士兵。

泽连斯基:3800 名朝鲜士兵死伤,明年春天再派遣 8,000 名士兵。

鱼莫语
2025-01-06 14:10:19
他靠反美大发横财,如今却在美购置豪宅,真是北大的耻辱

他靠反美大发横财,如今却在美购置豪宅,真是北大的耻辱

涛哥锐评
2025-01-05 05:30:03
该来的终于来了,垂死挣扎的尹锡悦,把带毒的矛头指向了中国

该来的终于来了,垂死挣扎的尹锡悦,把带毒的矛头指向了中国

蓝色海边
2025-01-07 18:14:31
中共中央政治局委员、中央政法委书记陈文清:确保群众的每一项诉求都有人办理,群众的每一项诉求都依法推进

中共中央政治局委员、中央政法委书记陈文清:确保群众的每一项诉求都有人办理,群众的每一项诉求都依法推进

新京报政事儿
2025-01-07 23:05:58
哪吒汽车官网已无法正常访问

哪吒汽车官网已无法正常访问

经观汽车
2025-01-06 12:18:39
上海市委常委李政,有新职务

上海市委常委李政,有新职务

鲁中晨报
2025-01-07 19:16:04
中国股市又爆猛料,今天A股或将要大变天,万千散户抄底还是逃跑

中国股市又爆猛料,今天A股或将要大变天,万千散户抄底还是逃跑

一丛深色花儿
2025-01-08 01:26:09
对于巴沙尔来说,其最大的失败不是失去总统的权力,而是失去爱

对于巴沙尔来说,其最大的失败不是失去总统的权力,而是失去爱

通往远方的路
2025-01-07 08:14:41
演员星星在缅北照片公开:眼神空洞表情恐惧,蜷缩着身子精神差

演员星星在缅北照片公开:眼神空洞表情恐惧,蜷缩着身子精神差

素素娱乐
2025-01-07 14:56:42
上映10天票房还是0元,国家三级演员主演新片惨败

上映10天票房还是0元,国家三级演员主演新片惨败

影视原说a
2025-01-06 10:49:56
腼北到底有多乱?网友:比想象的有过之而无不及

腼北到底有多乱?网友:比想象的有过之而无不及

解读热点事件
2025-01-08 00:37:18
2025央视春晚第一次大联排,看到这一群群嘉宾,突然不期待了!

2025央视春晚第一次大联排,看到这一群群嘉宾,突然不期待了!

肆季娱乐
2025-01-07 16:43:50
冠县人民政府原党组成员、副县长邢同凯被“双开”

冠县人民政府原党组成员、副县长邢同凯被“双开”

齐鲁壹点
2025-01-07 17:19:29
老人再婚后第一次同房有啥感受?63岁阿姨坦言:他给我太多惊喜了

老人再婚后第一次同房有啥感受?63岁阿姨坦言:他给我太多惊喜了

烙任情感
2025-01-07 12:10:03
网红雅典娜为园区老总产下一子后被解救?果然又是潮汕商会

网红雅典娜为园区老总产下一子后被解救?果然又是潮汕商会

垛垛糖
2025-01-06 10:57:47
今年开始,买房要变得越来越难了!

今年开始,买房要变得越来越难了!

大胡子说房
2025-01-07 17:23:24
43岁的王心凌腿环都整上了,她真没活了,一大把年纪可以成熟点!

43岁的王心凌腿环都整上了,她真没活了,一大把年纪可以成熟点!

祝晓塬
2025-01-07 20:33:31
三队交易涉及7人加1首轮选秀权,巴特勒被交易到灰熊,辅佐莫兰特

三队交易涉及7人加1首轮选秀权,巴特勒被交易到灰熊,辅佐莫兰特

阿雄侃篮球
2025-01-07 10:08:15
南海反击战即将打响? 解放军获美军重要情报,菲律宾已大难临头

南海反击战即将打响? 解放军获美军重要情报,菲律宾已大难临头

张殿成
2025-01-07 12:41:44
武汉将全面取缔“共享电动单车”!

武汉将全面取缔“共享电动单车”!

大光谷
2025-01-08 00:10:56
2025-01-08 05:31:00
芥末堆看教育 incentive-icons
芥末堆看教育
面向教育行业的专业新媒体
27703文章数 78137关注度
往期回顾 全部

教育要闻

讲讲强基计划与教育公平,为何高考分省录取

头条要闻

男子称到银行取现2.9万遭报警排查来源用途 银行回应

头条要闻

男子称到银行取现2.9万遭报警排查来源用途 银行回应

体育要闻

奥运冠军强强联合!郑钦文将搭档德约科维奇,出战澳网表演赛

娱乐要闻

星星缅北照片公开:眼神空洞表情恐惧

财经要闻

中共中央、国务院:大力发展养老金融

科技要闻

黄仁勋化身"美国队长" 发布RTX 50系列显卡

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

教育
家居
亲子
公开课
军事航空

教育要闻

采访马来西亚来华留学生:全球华人都很拼,也要学会知足

家居要闻

简约大气 居心之所

亲子要闻

你永远猜不到萌娃下一秒会做出什么事!兔子:不是在喂我吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

朝鲜成功试射新型高超音速中远程弹道导弹

无障碍浏览 进入关怀版