网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

o3被曝成绩「造假」，60多位数学泰斗集体被耍！OpenAI暗中操控，考卷提前看光

2025-01-20 11:40:28　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：泽正好困

【新智元导读】又爆大瓜！FrontierMath的o3惊人表现，竟是因OpenAI资助了Epoch AI而提前获得大部分试题访问权。OpenAI模型的性能究竟几分是真，几分炒作，愈来愈变得扑朔迷离。

不久前，OpenAI在「圣诞12连更」中发布的最强推理模型「o3」，毫无疑问地惊艳了所有人。

尤其是对于新近发布的数学基准FrontierMath，其准确率相比o1直接翻了12倍。

正因如此的高难度，o3这种对于FrontierMath惊人的突破才让大家都对其推理能力而感到不同凡响。

但是，近日曝出一则消息，o3之所以能在短时间之内就相比于o1提升12倍的准确率，是因为OpenAI资助了FrontierMath，并且可以访问大部分数据集。

但那些为评测集创建问题和解答的数学家们却完全被蒙在鼓里，根本不知道OpenAI是项目资助方并将获得数据访问权。

简单来说就是：

我们无从得知OpenAI是否用这个评测集训练了o3，因此他们宣称的结果可信度值得质疑
数学家们被有意隐瞒了真相，而大多数人甚至从未怀疑过会有一家AI公司在背后提供资金支持

对此，Epoch AI解释称：「我们承认OpenAI确实可以访问大部分FrontierMath的问题和解决方案，但有一个OpenAI未见过的保留集使我们能够独立验证模型能力。我们有口头协议这些材料不会用于模型训练。」

但是这所谓与OpenAI达成的「口头协议」——呵，现在还有谁会相信OpenAI的承诺？

根据网上的各种报道，FrontierMath中的难题本应都是未公开的，目的就是防止AI公司利用这些数据训练模型。

然而现在看来，「AI公司根本接触不到这个数据集」这一点，实际上却是Epoch AI和OpenAI刻意制造出的假象。

但考虑到OpenAI前科累累的欺骗和误导行为——从蒙骗自家董事会，到强迫前员工签署秘密的不诽谤协议，应有尽有。

所以这次的事件，多少有种「意料之外，情理之中」的意味了。

Epoch AI首席数学家回应

消息曝出后，Epoch AI首席数学家Elliot Glazer对此进行了回应。

他首先是承认了自己的错误，并对因为没有被告知真相而自主做出贡献的数学家致以歉意。

而对于o3那惊人的25.2%的准确率，他只是个人层面上表示相信，却没有一个真实可靠、有理有据的保证。

Epoch AI联创Tamay Besiroglu也正式发布了博客作为回应。

对于此次事件，Tamay给出的解释是：「我们的合同明确禁止披露资金来源信息以及OpenAI可以访问大部分（但不是全部）数据集的事实。」

现在回想起来，我们应该更积极地争取向评测集贡献者及时公开相关信息的权利。我们对此承担责任，并承诺未来会做得更好。

虽然我们确实向部分数学家告知了来自lab的资金支持，但这种沟通并不系统，也没有具体说明合作方。

这种不一致的沟通方式是我们的疏忽。我们应该一开始就坚持争取公开合作关系的权利，尤其是对那些创建问题的数学家们。

仅在o3发布前后才获得披露OpenAI参与的许可是远远不够的。参与项目的数学家们有权知道谁可能会接触到他们的工作。

尽管我们受到合同条款的限制，但我们应该将对贡献者的透明度作为与OpenAI合作的基本前提。

同时，对于FrontierMath他仍然声称：「OpenAI完全支持我们维护独立的未见测试集的决定——这是防止过拟合和确保准确评估进展的重要保障。」

在交流中，OpenAI的员工将FrontierMath称为「严格保留」的评估集，这种公开表述与我们的理解一致。

而且，我想强调的是，拥有真正未被训练数据污染的测试集对各个lab都很重要。

从项目伊始，FrontierMath就被设计和定位为一个评估工具，我们相信当前的安排完全符合这一初衷。

对于未来的合作，我们将致力于提高透明度，确保贡献者能在项目初期就清楚了解资金来源、数据访问权限和使用目的等信息。

总结来看，Epoch AI的确意识到了这次事件的严重性，但是很多回应依然停留在「公关套词」层面，并且全程都在甩锅称自己不说是因为「合同」的限制。

已有端倪，激起热议

一石激起千层浪，纽约大学教授Gary Marcus，亚利桑那州立大学计算机教授Subbarao Kambhampati等大佬，纷纷发文对OpenAI这一的行为表示谴责。

左右滑动查看

其实，在去年12月刚发布时，便有参与o3-mini早期测试的研究人员发现了这一端倪。

比如Open Vision Engineering的创始人Akshay Narisetti在推上po出的发现，就从侧面印证了这次的爆料：

o3-mini在ARC-AGI中的正确率为156/400
o3-mini在Frontiermath上的表现并不理想

根据实测结果，模型擅长解决特定类型的问题，但泛化能力还未完全成熟。在结构化任务上表现优异，但在需要多维度推理能力的问题上仍有明显短板。

对此，谷歌DeepMind的研究员「Ted Xiao」分析认为，这种影响可以有两个极端的解释：

1. 糟糕，OpenAI正在操纵benchmark，还把测试题目泄漏进训练数据里了！2. OpenAI只是用FrontierMath的私有题库来指导新训练数据的整体设计方向和目标，以及设计推理路径。

当然了，也有没那么极端的。比如，稍微改改题目内容创建新的训练数据，这样从技术角度来说，确实没有直接用测试数据中的token来训练。

如今，SOTA模型之间的竞争已经白热化。如果使用这种投机取巧的方式，模型在实际应用场景中就会原形毕露（缺乏泛化能力）。

这种冒险顶尖AI实验室可承担不起，因此于理来说，OpenAI更可能采用第二种方式。

但即便如此，这一行为依然让o1和o3在FrontierMath上，表现得比在其他未经优化的复杂推理领域中更亮眼。

不过，这种差距应该不会像某些在MMLU上采用第一种手段的「小语言模型」那样——评测分数和实际能力简直是天壤之别。

对于那些坚信OpenAI用了第一种方法、偷偷把测试数据混进去的人，我建议：不妨等等看o3在实际应用场景和其他评测中，跟下一代重点强化推理能力的顶尖模型相比，表现如何。

到时就知道，o3是不是只在FrontierMath上特别强，在其他地方就不行了。

参考资料：

https://x.com/Mihonarium/status/1880944026603376865

https://x.com/xiao_ted/status/1881075585843069258

https://x.com/ElliotGlazer/status/1880812021966602665

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

骑马造势的车企原董事长落马 2个月前曾公开出席活动

中国新闻周刊 2026-05-24 23:46:09
1536 跟贴 1536
神舟二十三号载人飞船发射取得圆满成功

央视新闻客户端 2026-05-24 23:31:08
5492 跟贴 5492

仅因店员疏忽漏放吸管，女子多次扔吸管砸店员：惹到我，算你倒霉

星视频 2026-05-24 12:21:15
372 跟贴 372

从早忙到晚，一天50000斤都不够卖！杭州这口酸甜，不少人已安排！今年品质特别好

环球网资讯 2026-05-24 15:00:44
330 跟贴 330
60岁阿姨疯狂买买买，还专门租房用来放快递：它们不会主动离开我

澎湃新闻 2026-05-24 19:05:02
426 跟贴 426

卧室几乎烧报废，浙江多地发生！赶紧提醒家人，它原来一直在“偷偷加班”

都市快报橙柿互动 2026-05-24 11:54:49
261 跟贴 261

端午连休三天高速不免费

闪电新闻 2026-05-24 21:04:55
2266 跟贴 2266
投喂狮子时观光车车门突然打开！探访八达岭野生动物园：猛兽区投喂项目已关闭，同类观光车停运

红星新闻 2026-05-24 18:07:17
1411 跟贴 1411

每瓶仅含0.01克，喝几千瓶才抵一个桃！“饮料一哥”也翻车了？杭州多家超市在售，你可能也喝过

都市快报橙柿互动 2026-05-24 20:48:16
69 跟贴 69
特斯拉中国将FSD更名为特斯拉辅助驾驶

每日经济新闻 2026-05-24 13:00:06
1723 跟贴 1723
集中爆发！宁波多地惊现罕见景观！有人半夜11点刷到立马起床出发，连夜奔赴

上观新闻 2026-05-23 11:46:10
914 跟贴 914
乌称俄疑似使用“榛树”导弹打击基辅俄暂未回应

环球网资讯 2026-05-24 11:26:23
1083 跟贴 1083
凌晨1点，湖北一派出所所长，带人徒手扒小麦

环球网资讯 2026-05-25 07:34:39
1 跟贴 1
“都是卖猪食的”，腾讯字节吵起来了？抖音副总裁李亮：我没说过，也没有其他“字节副总裁”说过

都市快报橙柿互动 2026-05-25 09:28:26
9 跟贴 9
进口蛋白粉先涨价再优惠淘宝618大促比日常价格还高

大风新闻 2026-05-23 17:12:31
316 跟贴 316
中国沙地奇迹让赛考斯震惊了：Amazing

央视新闻 2026-05-24 21:56:14
389 跟贴 389
一次补税超5亿湖南知名医院突然爆雷

中国新闻周刊 2026-05-24 22:21:38
1 跟贴 1
越南拟禁止2010年后出生者购买或使用烟草制品，旨在打造“越南无烟一代”

潇湘晨报 2026-05-24 13:21:32
1327 跟贴 1327
广湛高铁上新：广州至湛江北，最低折合149.4元/次

南方都市报 2026-05-24 13:23:52
392 跟贴 392
武契奇刚下飞机就去长城了在纪念品商店买买买

看看新闻Knews 2026-05-24 21:47:25
392 跟贴 392
“东北超”开踢，为东北全面振兴注入鲜活动能

中国网 2026-05-24 14:57:04
541 跟贴 541
湖北男子被鳖咬出伤口，居然是爱心型的，网友：你俩过上520了？

狸猫之一的动物圈 2026-05-25 10:24:34
0 跟贴 0
福建再通报“泡药杨梅”事件：23名党员干部被问责

看看新闻Knews 2026-05-25 10:34:12
0 跟贴 0
江苏公园用无主墓碑铺路，是废物利用？

画生笔记 2026-05-25 10:37:22
0 跟贴 0
亚历山大、东契奇成功入选NBA最佳阵容，詹姆斯22年来首次无缘最佳阵容

潇湘晨报 2026-05-25 10:11:11
0 跟贴 0

最后关头，特朗普变卦没有签字，中方已收到消息，美国不想当老二

最后关头，特朗普变卦没有签字，中方已收到消息，美国不想当老二

黑鹰观军事

2026-05-24 01:16:17

暴雨红色预警！武汉：停止集会、停课、停业

暴雨红色预警！武汉：停止集会、停课、停业

齐鲁壹点

2026-05-24 12:17:48

凌晨，天津一地突发恶劣事件！

天津族

2026-05-25 07:34:29

毛远新透露，毛主席最后的遗嘱应该只有9个字

毛远新透露，毛主席最后的遗嘱应该只有9个字

历史伟人录

2024-09-27 13:44:11

权色交易、陪睡上位，她根本不沾边，简直是娱圈的一股“清流”

权色交易、陪睡上位，她根本不沾边，简直是娱圈的一股“清流”

枯蝶

2026-05-16 11:38:52

故事:赖昌星自白:我风流一生,但心里只住过两个人,她胜过结发妻子

故事:赖昌星自白:我风流一生,但心里只住过两个人,她胜过结发妻子

萧竹轻语

2025-11-03 17:25:34

中国科学院院士周成虎，被当众带走调查！

中国科学院院士周成虎，被当众带走调查！

高分子科学前沿

2026-05-23 15:07:18

最佳二阵5人场均26+！一阵有多强？三阵争议最大，华子成最大遗珠

最佳二阵5人场均26+！一阵有多强？三阵争议最大，华子成最大遗珠

你的篮球频道

2026-05-25 08:30:32

德佬嘲讽国米，孔蒂现场回怼：国米配得上冠军；人家做的比我们多

德佬嘲讽国米，孔蒂现场回怼：国米配得上冠军；人家做的比我们多

懂球帝

2026-05-25 08:17:50

朝鲜突然大规模裁军

回京历史梦

2026-05-23 16:32:30

山西一地干部任前公示

山西晚报

2026-05-25 10:03:35

故事：女子鹤岗买120平房子养老，10年后回去，屋内景象让她愣住

故事：女子鹤岗买120平房子养老，10年后回去，屋内景象让她愣住

白云故事

2024-12-09 19:05:03

普京失望而返，谈了二十年都没戏，中国这次要俄认清一个事实

普京失望而返，谈了二十年都没戏，中国这次要俄认清一个事实

阿库财经

2026-05-24 23:24:15

因生不出孩子被踢出豪门，却二婚后儿女双全，陈法拉终于扬眉吐气

因生不出孩子被踢出豪门，却二婚后儿女双全，陈法拉终于扬眉吐气

最美的笔触

2026-05-23 17:11:22

本·阿弗莱克与前妻穿情侣装出街，离婚7年仍默契

本·阿弗莱克与前妻穿情侣装出街，离婚7年仍默契

自愈小日子

2026-05-24 00:56:02

男子买一万块榴莲错付了11万，几个月才发现，商家称早已退款，男子：有人冒充我接受了退款，调查结果太意外

男子买一万块榴莲错付了11万，几个月才发现，商家称早已退款，男子：有人冒充我接受了退款，调查结果太意外

背包旅行

2026-05-24 17:30:02

教你一个玄学法则：当你的孩子主动给你买衣服、买吃的，或者主动给你发红包，不管你缺不缺钱，有多心疼孩子赚钱辛苦，你都要欣然的收下

教你一个玄学法则：当你的孩子主动给你买衣服、买吃的，或者主动给你发红包，不管你缺不缺钱，有多心疼孩子赚钱辛苦，你都要欣然的收下

心理观察局

2026-05-13 09:18:07

比油车“集体降价”更可怕的是：经销商都开始加速叛变了！

比油车“集体降价”更可怕的是：经销商都开始加速叛变了！

刘哥谈体育

2026-05-25 01:44:10

德泽尔比：今天这场比赛也许是我执教以来，球员踢得最精彩的

德泽尔比：今天这场比赛也许是我执教以来，球员踢得最精彩的

懂球帝

2026-05-25 02:09:59

令人唏嘘！一个时代结束了！没有詹姆斯，没有库里，杜兰特成独苗

令人唏嘘！一个时代结束了！没有詹姆斯，没有库里，杜兰特成独苗

萌兰聊个球

2026-05-25 09:18:41

AI产业主平台领航智能+时代

15298文章数 66885关注度

往期回顾全部

科技要闻

华为发表半导体演进新定律

头条要闻

重庆农家乐3000多斤特色鱼几乎全被洪水冲走老板发声

头条要闻

重庆农家乐3000多斤特色鱼几乎全被洪水冲走老板发声

体育要闻

如果不好好守门，他可能早就继承家业了

娱乐要闻

洪涛回应歌手淘汰庾澄庆：难以理喻

财经要闻

退市！33年“A股不死鸟”落幕

汽车要闻

国民家轿再上新帝豪向上系列限时5.59万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

艺术

游戏

旅游

亲子

房产要闻

疯狂周末，海口楼市突然爆了！

艺术要闻

他把葡萄画成了美少女

《哥特王朝》重制版补丁引批评官方回应无需联网游玩

旅游要闻

下一站｜去奉化天妃湖赴一场山海之旅

亲子要闻

福州儿童/青少年配眼镜深度推荐：拒绝“模板化”，科学护航孩子的“远视储备”

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版