网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

o3拿下25%高分震惊数学教授，2025 IMO金牌或被AI收入囊中！

2025-01-01 12:43:43　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：编辑部 JHY

【新智元导读】AI真的可以做数学了吗？来自帝国理工学院教授Kevin Buzzard在最新博文中深刻探讨了这个问题。甚至，他预测道，2025年AI能够拿下IMO金牌级水平。

OpenAI o3发布后，多个高难度基准测试的SOTA被大幅刷新。

就数学、代码、软件工程等领域而言，更是完全粉碎了满血版o1。

在这之中最引人瞩目的，便是在今年11月Epoch AI发布的数学基准Frontier Math上，准确率破纪录地达到了25.2%。

那么，这个结果到底意味着什么呢？

联手60多位数学家出题的陶哲轩，曾认为这项测试能够难住AI好多年

最近，帝国理工学院教授、数学家、IMO金牌得主Kevin Buzzard发表了一篇深度长文——AI现在能做数学了吗？

文中，他探讨了AI在数学研究中的潜力，特别是在处理复杂计算和验证方面。不过，Buzzard认为在原创性证明、深刻理解数学概念方面，依旧存在一些局限。

o3未来在数学方面的研究潜力究竟如何，或许我们能够从这篇文章中获得关键的一瞥。

o3是什么？FrontierMath又是什么？

可能大多数人都认为，语言模型就是ChatGPT之类的东西：你可以向它提出问题，它会写一些句子给你答案。

语言模型在ChatGPT之前就有了，但总的来说，它们甚至无法写出连贯的句子或段落。

之后还有很多其他模型。现在，它们仍在快速进步。

没有人知道这种情况还会持续多久，但有很多人在这个游戏中投入了大量资金，因此，如果打赌进展会很快放缓，那就太傻了。

论文链接：https://arxiv.org/abs/2411.04872

之所以要进行「保密」，是有原因的。

大语言模型的训练要依赖于大型的知识数据库，因此一旦你将数据集公开，这些语言模型就会在上面进行训练。

如果你向这样的模型提出来自数据集中的问题，它们可能会直接复述出已经看到的答案。

这个数据集有多难？

那么，FrontierMath数据集中的问题是什么样的呢？

我们知道的是，这些问题不是「证明这个定理」问题，而是「找到这个数字」问题。更准确地说，「问题必须具有清晰且可计算的答案，并且能够被自动验证。」

对于数据集中公开的5个示例问题，通过随机猜测的方式几乎上不可能成功。而且对于专业数学家来说也不简单。

Buzzard称，自己可以理解这5个问题的题意，并能较为轻松地完成第三道题——他以前见过这个技巧。

简单来说就是，函数将自然数n映射到α^n，当且仅当α-1的p进值为正时，该函数在n上是p进连续的。

而且，他也完全知道如何解决第五个问题——这是一个涉及曲线Weil猜想的标准技巧，但没有去算出确切的13位数答案。

对于第一个和第二个问题，Buzzard承认自己并不会做；至于第四个问题，如果花很多力气去研究的话可能会有进展，不过他最终没有尝试，只是看了看答案。

Buzzard怀疑道，即便是非常聪明的数学本科生，可能连其中的一个问题都无法完成。

比如第一个问题，就需要是解析数论领域的博士生才有可能。

FrontierMath论文中引用了一些数学家对这些问题难度的评价。就连菲尔兹奖得主陶哲轩表示：「这些问题极具挑战性，只有领域专家才能解决」。

确实，Buzzard称自己能解决的两个示例问题都在专业领域，比如算术；而对那些不在专业范围内的问题，一个都没解决。

不过，同是菲尔兹奖得主的Borcherds也在论文中提到，机器所生成数值答案「并不完全等同于提出了原创性的证明」。

那么，为什么要制作这样一个数据集呢？

问题在于，对「数百」个「证明这个定理」问题的答案进行评分成本非常高。至少在2024年，人们还不会信任机器在这种复杂程度下进行评分，因此必须花钱聘请人类专家来完成。

相比之下，检查一个列表中的数百个数字是否与另一个列表中的相对应，计算机可以在一秒钟内完成。

正如Borcherds所指出的，数学研究人员的大部分时间都是在尝试提出证明或构思想法，而不是处理数字。

不过，由于在数学领域，AI迫切需要高难度的数据集，而创建这样一个数据集是非常困难的，或者说是非常昂贵的。因此，FrontierMath数据集仍然非常有价值。

在最近的一篇论文中，Frieder等人深入讨论了数学领域AI数据集的不足之处。

论文链接：https://arxiv.org/pdf/2412.15184

此外，Science上也有一篇关于FrontierMath数据集的文章，其中引用了Buzzard的话：「如果有一个系统能够在这个数据集上取得满分，那数学家的时代就结束了。」

没想到，就在论文发出的一个多月之后，OpenAI突然宣布o3在这个数据集上取得了破纪录的25.2%准确率。

整个AI数学圈，都为之震惊，包括Buzzard本人也是。

发生了什么？

在数学领域，Buzzard对「AI」能力的认知是「本科生或预科生」的水平。

o3在解决为优秀高中生设计的「奥林匹克式」问题方面，表现得非常出色。

毫无悬念的是，AI系统在一年之内就能通过本科数学考试。

因为，在设计本科数学考试时，通常需要确保不至于有50%的学生都不及格，因此会加入一些标准化问题（和学生们已经见过的非常相似），从而帮助那些对课程有基本理解的学生能通过考试。在这些问题上，机器很容易取得高分。

但要从这一水平跨越到高级本科或早期博士阶段，并提出创新性想法，而不仅仅是重复利用标准化的思路，将需要一个相当大的飞跃。

因此，Buzzard原本预计这个数据集在接下来的几年内仍然是难以攻破的。

但还是激动早了。

Epoch AI的Elliot Glazer在Reddit发帖声称数据集中实际上有25%的问题是「IMO/本科生风格的问题」。

这个说法有点令人困惑，因为很难将这样的形容词，对应到公开发布的5个问题中的任何一个。

即使是最简单的一个，也涉及到了Weil曲线猜想（或是通过暴力计算论证——勉强可行但会非常痛苦，因为它需要在有限域上分解10^12个三多次项式）。

那么问题来了，这个数据集中问题的实际水平到底是什么？或者换句话说，这五个公开问题是否真的具有代表性？我们无从得知。

考虑到这一新的信息，即25%的问题是本科水平，Buzzard称自己对o3取得的成绩也就不那么惊讶了。

不过，他表示，还是很期待AI能够在数据集上达到50%的准确率。因为在「博士资格考试」上的表现（也就是Elliot Glazer所描述的接下来50%的问题），正是Buzzard希望从这些系统中看到的。

证明这个定理！

然而，正如Borcherds指出的那样，即使我们最终得到了一台在「找到这个数字」方面超越人类的机器，它在许多数学研究领域的适用性也将十分有限，因为这些领域的核心问题通常是如何「证明这个定理」。

在Buzzard看来，2024年最成功的案例是DeepMind的AlphaProof——它解决了2024年国际数学奥林匹克（IMO）六道题中的四道。

在这些问题中，既有「证明这个定理」, 也有「找到一个数字并证明它的正确性」。对于其中的三道题，机器的输出是完全形式化的Lean证明。

交互式定理证明器Lean拥有一个完善的数学库mathlib，其中就包含有能够解决IMO以及其他问题所需的众多技术。

最终，DeepMind系统的解答经过人工检查后被验证为「满分」答案。

不过，这相当于让我们又回到了高中——尽管题目极难，但解题只需使用高中水平的技术。

Buzzard认为，我们将会在2025年看到IMO金牌水平的机器。

但同时，这也迫使我们不得不重新面对之前提到的「评分难题」。

谁给机器打分？

可以设想，在2025年7月的国际数学奥林匹克大赛（IMO）上，除了数百名世界上最聪明的中学生之外，还会有机器参赛。但希望数量不会太多。

这些系统将分为两种类型：

以计算机证明检查器（如Lean、Rocq、Isabelle等）的语言提交答案的系统
以人类的语言提交答案的大语言模型

这两种提交方式之间最大的区别在于：

对于已被正确翻译为计算机证明检查器语言的题目陈述，评审只需检查证明能否通过编译，基本上就可以确定这是不是一个「满分」答案了。
对于大语言模型，评审将面临类似普特南竞赛解答的情况——计算机会写出一些看起来很有说服力的内容，但人类需要仔细阅读并评分，而且并不能保证这会是一个「满分」答案。

Borcherds提醒AI社区「证明这个定理！」是数学家真正希望看到的，这是非常正确的。

目前在逻辑推理方面，大语言模型的准确度至少比人类专家低一个数量级。

我担心，在一两年之内会不可避免地出现语言模型「证明」黎曼猜想的浪潮。这些模糊或不准确的「证明」可能会夹杂10页正确的数学内容中，而人类不得不耗费大量的精力才能把它们找出来。

另一方面，定理证明器的准确性至少高一个数量级：每当看到Lean拒绝接受数学文献中的某个人类论证时，错误的总是人类。

事实上，数学家希望看到的不仅仅是「证明这个定理！」，而是希望看到「正确地证明这个定理，并以人类能够理解的方式解释其成立原因」。

对于语言模型方法，我非常担心「正确性」；而对于定理证明器的方法，我则担心「是否能够以人类能够理解的方式呈现」。

目前进展非常迅速，但我们在这一领域仍然有大量工作要做。

至于何时才能「跨越本科生水平这道坎」？没有人知道。

参考资料：

https://xenaproject.wordpress.com/2024/12/22/can-ai-do-maths-yet-thoughts-from-a-mathematician/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

人大打造角色扮演能力数据集，包含85个角色和14000段对话数据

DeepTech深科技 2025-01-03 15:50:05
0 跟贴 0
多模态大语言模型空间智能新探索：单图或一句话，生成3D建模代码

机器之心Pro 2025-01-03 15:16:49
1 跟贴 1

2025 AI深度前瞻：推理成本暴降90%，智能体迎GPT时刻，空间智能涌现

智东西 2025-01-03 22:43:36
1 跟贴 1

AIGC时代，联想的野望和收获

智东西 2025-01-03 21:28:22
0 跟贴 0
《人类简史》作者正与AI进行“秘密交易”？赫拉利“讲出”流利中文背后，是妥协还是突破？

每日经济新闻 2025-01-03 21:05:04
1 跟贴 1

完全数一个古老未解的问题

古城孤魂 2025-01-03 14:26:27
0 跟贴 0

揭秘学霸韦神，每天喝的“聪明水”，国家栋梁之才！

搞笑差不多 2025-01-03 21:20:06
3 跟贴 3
黎曼球面：一个可以除以零的世界

心中的麦田 2025-01-03 18:47:26
16 跟贴 16

为什么学线代时不知道：矩阵与图竟然存在等价关系

机器之心Pro 2024-08-19 14:19:28
146 跟贴 146
数学新前沿改造科学与人类的推动力丨世界华人数学家联盟年会开幕式举行

上海杨浦 2025-01-03 16:09:10
0 跟贴 0
对话孙斌勇院士：不要把科研失败看成人生的“至暗时刻”

DeepTech深科技 2024-08-19 16:52:00
0 跟贴 0
乌军拟利用无人机海量视频训练AI模型辅助战场决策，有何作用？

李莉说 2025-01-02 19:12:00
135 跟贴 135
几何朗兰兹猜想被解决！论文达800余页，中国学者陈麟系主要作者

量子位 2024-07-23 18:10:04
551 跟贴 551
对美国的战略迷惑？中航工业开售轰20模型，究竟是真的还是假的

海枫观天下 2025-01-02 15:26:16
0 跟贴 0
关于广州有人买彩票中5亿元巨奖，网上最合理的一种解释

小萝卜丝 2025-01-03 20:17:56
11569 跟贴 11569
156已知三角形三条边求一角，不会余弦定理怎么办？

我服子佩 2025-01-02 12:14:38
1 跟贴 1
壮烈！俄乌士兵近身肉搏战：匕首不断刺进身体殊死搏斗全程震撼

中国品牌 2025-01-03 11:32:24
7605 跟贴 7605
死神：队长级死神六维图大盘点，整体数值最低的果然是剑八

迷人阿伦 2024-12-31 12:55:43
5 跟贴 5
解读神秘的四维空间，和三维空间的区别到底是什么？

宇宙时空 2025-01-03 18:19:01
19 跟贴 19
搞杂技，玩模型，俄罗斯网友点赞印度阅兵：摩托车换成战象会更好

小周周121 2025-01-03 12:09:55
1 跟贴 1
湖人力克开拓者詹姆斯38+8克里斯蒂28分浓眉缺阵

网易体育 2025-01-03 13:52:11
7240 跟贴 7240
124小升初名校考试题填入不同自然数看似简单却不简单的题目

我服子佩 2024-12-31 18:14:36
4 跟贴 4
抽象函数独家攻略！高一数学期末考试题，函数单调性与对称性妙用

六维坐标系 2025-01-02 20:12:19
1 跟贴 1
中国“六代机”，只是个模型？！

主持人璐璐lu 2025-01-03 16:22:35
0 跟贴 0
王传福彻底失控，本以为他把比亚迪的427万台销量来是为了炫耀

星辰故事屋 2025-01-03 17:29:25
2678 跟贴 2678
项立刚：作为项羽后裔，虽然个子矮小读过中专，但我拥有完美人生

笑熬浆糊111 2025-01-03 00:06:53
5416 跟贴 5416
苹果降价抢市场网友：你不买我不买应该还能降800

参考消息 2025-01-02 18:35:53
7224 跟贴 7224
假如你在光速飞船上奔跑，是否超光速了？

宇宙时空 2024-12-31 15:44:46
7 跟贴 7
东西还未放上天平称，数值已经开始跳动，网友：这仪器的精密度可以啊

掌中石家庄 2025-01-03 12:20:56
1 跟贴 1
为什么"物化生"一选，学习压力立刻“爆表”？

教育思享 2025-01-03 21:30:31
0 跟贴 0
B站2024年百大UP主榜单发布，透露出什么信息？

36氪 2025-01-04 08:52:14
1 跟贴 1
版本强势女枪，没有操作全是数值

lol超神解说 2025-01-03 11:27:09
6 跟贴 6
学校各科老师同框拍摄视频，每个老师的气质都和教的学科很搭“数学老师看起来就像学数学的”

新知速报 2025-01-01 14:30:34
0 跟贴 0
库里三分8中8!勇士打爆76人恩比德28+14

网易体育 2025-01-03 13:25:52
5227 跟贴 5227
上海一小区居民傻眼：被强行拆毁！定好的事成糊涂账

新闻坊 2025-01-04 08:19:10
40 跟贴 40
生成式CAD即将到来，600亿美元市值的Autodesk正内测CAD大模型

钛媒体APP 2025-01-03 14:57:13
1 跟贴 1
刚拿下NeurIPS最佳论文，字节就开源VAR文生图版本，拿下SOTA

量子位 2025-01-03 15:49:29
0 跟贴 0
北京市中考数学题，别看题目次数高，那就是套路纯纯唬人！

三乐大掌柜 2024-12-31 05:51:59
1 跟贴 1
多模态长文档新基准来了！20多项任务覆盖理解推理定位

量子位 2025-01-03 14:45:33
1 跟贴 1
塞尔维亚公布部署FK-3导弹最新情况提到"强大能力"

环球网资讯 2025-01-03 16:02:29
1041 跟贴 1041

笑死，来上海过元旦的韩国人，打死也想不到自己会成为中国热搜！

笑死，来上海过元旦的韩国人，打死也想不到自己会成为中国热搜！

青青子衿

2025-01-03 23:18:38

突然宣布！手上2套以上房产的家庭，按照新规，房产税或将这样征

突然宣布！手上2套以上房产的家庭，按照新规，房产税或将这样征

巢客HOME

2025-01-04 06:35:03

43岁范冰冰釜山红毯炸场！肥牛卷裙大开衩，红毯女王再次封神！

43岁范冰冰釜山红毯炸场！肥牛卷裙大开衩，红毯女王再次封神！

她时尚丫

2025-01-03 18:50:39

欧盟通过禁止强制劳动法！核心是不来欧洲卷，要卷就自己在家卷

欧盟通过禁止强制劳动法！核心是不来欧洲卷，要卷就自己在家卷

大风文字

2025-01-03 17:42:45

柳州被曝换表后燃气费异常增加，涉事公司回应！当地要求答疑

柳州被曝换表后燃气费异常增加，涉事公司回应！当地要求答疑

南方都市报

2025-01-03 15:50:05

一女子在安倍墓前微笑合影，反贼称只有中国人才会这么做，结果被狠狠打脸

一女子在安倍墓前微笑合影，反贼称只有中国人才会这么做，结果被狠狠打脸

不掉线电波

2025-01-03 19:41:00

海外四子全部强势回归，大王子外貌端正有王相，夺嫡大战一触即发

海外四子全部强势回归，大王子外貌端正有王相，夺嫡大战一触即发

手工制作阿歼

2025-01-03 18:41:03

直红罚下！维尼修斯报复性推倒瓦伦西亚门将

直红罚下！维尼修斯报复性推倒瓦伦西亚门将

直播吧

2025-01-04 05:47:09

多地商务厅确认！2025汽车补贴无缝衔接，力度更猛

多地商务厅确认！2025汽车补贴无缝衔接，力度更猛

科技每日推送

2025-01-03 18:05:40

52岁吴越全素颜亮相，戴奶奶灰帽子朴素低调，没有眉毛也很美！

52岁吴越全素颜亮相，戴奶奶灰帽子朴素低调，没有眉毛也很美！

南城无双

2025-01-03 23:04:41

杭州划车案终审结果公布：拘役5个月缓刑，孩子的未来被毁了！

杭州划车案终审结果公布：拘役5个月缓刑，孩子的未来被毁了！

小毅说事

2025-01-03 13:31:40

看清解放军真正实力，美军一退再退，日本察觉不妙，提前对华示好

看清解放军真正实力，美军一退再退，日本察觉不妙，提前对华示好

空天力量

2025-01-03 17:21:34

故事:重庆地头蛇文强,600万邀韩国女星喝酒,强行灌醉与其共度良宵

故事:重庆地头蛇文强,600万邀韩国女星喝酒,强行灌醉与其共度良宵

红豆讲堂

2025-01-01 05:10:02

日本开无人饺子店，两年即倒闭！直接被偷破产了啊！！

日本开无人饺子店，两年即倒闭！直接被偷破产了啊！！

英国那些事儿

2024-12-30 23:25:09

舒缓而优美的油画人体 | 法国学院派Paul Sieffert

舒缓而优美的油画人体 | 法国学院派Paul Sieffert

歌雅艺术

2025-01-03 15:41:04

中国观众认定的烂片，海外观众当成宝，破128亿夺2024年全球年冠

中国观众认定的烂片，海外观众当成宝，破128亿夺2024年全球年冠

靠谱电影君

2025-01-03 14:00:16

✊Shams：球员工会将对热火禁赛巴特勒提出申诉

✊Shams：球员工会将对热火禁赛巴特勒提出申诉

直播吧

2025-01-04 09:28:23

4个月不到，巴黎奖牌也锈了，人家都是铁包金，就咱办奥运玩真的

4个月不到，巴黎奖牌也锈了，人家都是铁包金，就咱办奥运玩真的

鲸探所长

2025-01-03 08:00:11

华为订单转交比亚迪，激怒富士康，郭台铭：有生之年官司一定打到底

华为订单转交比亚迪，激怒富士康，郭台铭：有生之年官司一定打到底

农村阿祖

2025-01-03 19:24:41

一年赚近4个亿！“中国鸡王”冲击上市

一年赚近4个亿！“中国鸡王”冲击上市

说财猫

2025-01-03 18:25:05

AI产业主平台领航智能+时代

11953文章数 65750关注度

往期回顾全部

科技要闻

华为车BU业务装入引望上汽有望入伙

头条要闻

工行被诉未授权开通养老金账户：一审判赔储户5000元

头条要闻

工行被诉未授权开通养老金账户：一审判赔储户5000元

体育要闻

汽车城的年轻人，不想继续躺平摆烂

娱乐要闻

曝顶流把女友藏行李箱见面或王一博？

财经要闻

左江退市前疯涨寒武纪更猛却尚无退市征兆

汽车要闻

10万元级无图智驾悦也PLUS全路况实测

态度原创

数码

手机

家居

艺术

教育

数码要闻

苹果在中国销售限量版蛇年 AirPods 4

手机要闻

2024年度数码好物大赏【年度评选】

家居要闻

素色现代开启简洁生活

艺术要闻

故宫珍藏的墨迹《十七帖》，比拓本更精良，这才是地道的魏晋写法

教育要闻

山东省初中数学竞赛题，用对方法就会迎刃而解，否则再简单也发愁

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版