网易首页 > 网易号 > 正文 申请入驻

OpenAI 最强模型被曝造假!提前获取测试题,顶级数学家被蒙在鼓里

0
分享至

近日,OpenAI 再次陷入了舆论风波。

事件源于 LessWrong 论坛上的一则爆料。一位名为「Meemi」的 Epoch AI 承包商透露,OpenAI 不仅为 FrontierMath 基准测试提供资金支持,还获得了测试题库的特权访问权。

而这或许也是 o3 的成绩在短时间内获得极大提高的重要原因。但这个信息直到 去年 12 月 20 日 o3 发布时,才由 Epoch AI 对外公布。

消息一出,瞬间在 AI 圈引起轩然大波,因为这很难不让网友怀疑 OpenAI 是既当裁判,也当选手。

吃瓜之前,需要给不熟悉的朋友先捋事件的背景信息。

去年 12 月,OpenAI 正式发布了新一代号称突破 AI 极限的 o3 模型。

在其中一项名为 FrontierMath 的 AI 数学基准测试(成绩单)中,OpenAI 以 25.2% 的准确率遥遥领先,远超 GPT-4 和 Gemini 等模型不足 2% 的成绩。

FrontierMath 是一个分量极重的高级数学推理能力评估基准。它由 Epoch AI 联手 60 多位顶级数学家共同打造,参与者包括多位菲尔兹奖得主和国际数学奥林匹克竞赛的资深命题人。

该基准包含数百个原创且极具挑战性的数学问题,覆盖现代数学的多个主要分支,如数论、实分析、代数几何、范畴论等。

2006 年菲尔兹奖得主、数学天才陶哲轩曾评价 FrontierMath 的问题「极其具有挑战性」,并认为这些问题只能由领域专家来解决。他指出,即使是人类专家,解决这些问题也需要数小时甚至数天的努力。

本表明 o3 在高级数学推理方面有巨大进步的成绩单,却在承包商的爆料后迎来了风评反转。面对争议,Epoch AI 副主任兼联合创始人之一 Tamay Besiroglu 很快在 X 平台承认了此事。

我们犯了一个错误,没有更早披露 OpenAI 在 FrontierMath 中的参与。我们的合同在 o3 发布前禁止我们这么做。事后看来,我们确实应该更努力地争取更早的透明性。我们承认这一点,并承诺未来做得更好。

事态进一步发酵,斯坦福大学数学博士生 Carina Hong 声称,在 Epoch AI 的安排下,OpenAI 拥有对 FrontierMath 的特权访问权。

「对 FrontierMath 基准测试做出重大贡献的六位数学家向我证实,他们并不知道 OpenAI 会独占该基准测试的访问权限,而其他人无法获得,多数人表示,如果他们事先知情,可能不会选择参与。」

面对质疑声浪,Tamay Besiroglu 也通过博客表达歉意,承诺将在未来采用更高的透明度标准。

博客强调 OpenAI 的资金支持仅限于 FrontierMath 的开发,并未干预测试内容,同时声明所有数据和问题均来自独立贡献者并经过独立专家审核。

关于训练使用:我们承认 OpenAI 确实可以访问大部分 FrontierMath 问题和解决方案,但不包括 OpenAI 无法访问的保留集,这使我们能够独立验证模型功能。此外,我们有一个口头协议,这些材料不会用于模型训练。 相关 OpenAI 员工的公开沟通将 FrontierMath 描述为「严格保留」的评估集。虽然这种公开立场与我们的理解一致,但我还要进一步强调,实验室从拥有真正未受污染的数据集中获益匪浅。 OpenAI 也完全支持我们维护一个单独的、未公开保留的数据集的决定,这是一种额外的保护措施,可以防止过度拟合并确保准确的进度测量。自最初设计之时起,FrontierMath 就被定位并展示为一种评估工具,我们相信这些安排反映了这一目的。 [编辑:澄清了 OpenAI 的数据访问 - 他们无权访问作为独立验证额外保护措施的单独保留集。]

Epoch AI 的首席数学家 Elliot Glazer 承认在项目过程中未主动披露行业资助方面的信息,并向那些如果事先知情可能不会参与的数学家道歉。
关于 o3 成绩,他表示相信 OpenAI 报告的分数准确性,但强调 Epoch AI 需要通过正在开发的独立保留测试集来验证,并承诺保留集评估分数将公开。

当被质疑保留集状态时,Glazer 澄清这个测试集仍在开发中,而不是已经完成。

但这些解释并未能平息事件的争议,更多批评风浪涌向 Epoch AI 以及身处舆论漩涡的 OpenAI。

计算机科学家 Subbarao Kambhampati 表示,他此前就对 OpenAI 声称未预先接触奥林匹克数学和 FrontierMath 数据的说法持怀疑态度。在他看来,OpenAI 禁止相关方披露协议内容的做法本身就极具可疑性。

知名 AI 专家 Gary Marcus 对此事件提出了猛烈的批评。

他将 OpenAI 的 o3 演示描述为一场「绝望的、操纵的、误导性的、科学上粗制滥造的展示」,认为这更像是一次过度炒作而非真实突破。

一个生动的打比方是,如果有人提前获得了试题和答案,而其他人只能靠实力应考,这样的比较显然缺乏公平性。OpenAI 不仅获得了问题和解决方案的访问权,而其他竞争对手如 xai、DeepMind 以及学术团队却无法获得相同资源。

更重要的是,Gary Marcus 认为 OpenAI 对这一关键背景事实只字未提。

并且在展示过程中,OpenAI 选择性地隐藏了关键信息,既未公布在具体问题上的成功与失败案例,也没有提供相应的推理过程记录,更未说明哪些问题出现在训练集中。同时,他们也没有允许 Epoch 对保留测试集进行验证。

而回归到这场愈演愈烈的风波,很大程度上源于网友们对 OpenAI 无休止炒作的厌倦。疑似「刷榜」的行为,也再次触及了许多网友敏感的神经。

就在舆论持续发酵之际,OpenAI 又宣布其「Operator」项目取得突破,CEO Altman 预计将于 1 月 30 日向美国政府进行闭门简报。

据悉,「Operator」是 OpenAI 开发的一种具有博士级别能力的自主 AI 智能体,能够在浏览器中独立执行任务,比如编写代码、预订旅行、管理日程等。

当然,在这个节骨眼上,或许最好的危机公关策略就是立即发布 o3。而这也是最好的春节礼物。

截至发稿前,OpenAI 尚未进一步作出声明。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我有一个男朋友, 可他从不碰我,同居了一个月后我发现他有问题

我有一个男朋友, 可他从不碰我,同居了一个月后我发现他有问题

皓皓情感说
2026-05-14 15:11:12
特朗普警告伊朗:美军48小时后将全面打击不留情

特朗普警告伊朗:美军48小时后将全面打击不留情

春之韵
2026-05-18 11:58:59
黄仁勋都懵了!104岁大爷被问长寿秘诀时?竟回答:多看美女…

黄仁勋都懵了!104岁大爷被问长寿秘诀时?竟回答:多看美女…

马拉松跑步健身
2026-05-18 17:20:14
为什么"地下停车位"突然没人买了?内行人说出实情,恍然大悟

为什么"地下停车位"突然没人买了?内行人说出实情,恍然大悟

寻墨阁
2026-05-19 05:08:08
中美握手言和后,第一个心态崩掉的国家出现,举国上下反战声高涨

中美握手言和后,第一个心态崩掉的国家出现,举国上下反战声高涨

白日追梦人
2026-05-19 15:16:56
连续第十个跌停板,感觉买入闻泰科技的散户已经被跌的麻木了吧?

连续第十个跌停板,感觉买入闻泰科技的散户已经被跌的麻木了吧?

风风顺
2026-05-19 12:44:01
卫健委发文:大批社区医院要转型

卫健委发文:大批社区医院要转型

医脉圈
2026-05-18 22:42:06
雷霆两大败因出炉,亚历山大摊牌!文班看清现实,马刺还有好消息

雷霆两大败因出炉,亚历山大摊牌!文班看清现实,马刺还有好消息

鱼崖大话篮球
2026-05-19 13:20:01
俄媒坐不住了:中国歼-20流水线0工人,造战机如复制粘贴一般

俄媒坐不住了:中国歼-20流水线0工人,造战机如复制粘贴一般

忠诚TALK
2026-05-17 21:20:31
活106岁,熬死所有亲人:宋美龄看似风光百年,其实输得一无所有

活106岁,熬死所有亲人:宋美龄看似风光百年,其实输得一无所有

小莜读史
2026-05-18 13:53:12
被18岁泰国人淘汰!白雨露无缘3连冠后怒怼:有人拿开塞露当唇膏

被18岁泰国人淘汰!白雨露无缘3连冠后怒怼:有人拿开塞露当唇膏

风过乡
2026-05-19 08:15:31
央视《主角》火了,谁都没想到,片酬最高的即不是张嘉益,也不是北电院长?

央视《主角》火了,谁都没想到,片酬最高的即不是张嘉益,也不是北电院长?

东方不败然多多
2026-05-17 14:21:23
洁丽雅发布严正声明:已向公安机关报案

洁丽雅发布严正声明:已向公安机关报案

每日经济新闻
2026-05-19 00:43:13
我国人均GDP已超1.3万美元,将跨入高收入国家阵营!

我国人均GDP已超1.3万美元,将跨入高收入国家阵营!

闻号说经济
2026-05-19 09:29:27
双加时惜败,雷霆这场输在哪?最大罪人揪出:拉胯表现拖垮全队

双加时惜败,雷霆这场输在哪?最大罪人揪出:拉胯表现拖垮全队

体育见习官
2026-05-19 11:57:41
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
蔚来李斌:萤火虫没必要再推第二款车 已占高端小车70%份额

蔚来李斌:萤火虫没必要再推第二款车 已占高端小车70%份额

快科技
2026-05-18 12:38:48
外交部介绍普京访华相关安排

外交部介绍普京访华相关安排

财闻
2026-05-18 15:33:55
突然爆发,半导体龙头“20cm”涨停

突然爆发,半导体龙头“20cm”涨停

数据宝
2026-05-19 15:07:23
国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

梦史
2026-01-19 14:16:23
2026-05-19 16:47:00
爱范儿 incentive-icons
爱范儿
消费科技第一媒体
38869文章数 2601704关注度
往期回顾 全部

科技要闻

马斯克败诉,法院判他起诉OpenAI太晚了

头条要闻

4名男子赴泰国考察项目已失联半月 家属:人或在缅甸

头条要闻

4名男子赴泰国考察项目已失联半月 家属:人或在缅甸

体育要闻

文班亚马1比0雷霆:凌驾MVP的史诗价值

娱乐要闻

姚晨删博难平众怒,为什么她还能蹦哒

财经要闻

从卖流量到卖Token,运营商算力生意破局

汽车要闻

德味操控+聪明大脑,与众07不输新势力

态度原创

亲子
家居
数码
本地
旅游

亲子要闻

一次注射,改写命运:基因编辑正在从根源上攻克儿童癫痫

家居要闻

观山隐秀 心灵沉淀

数码要闻

AI抢爆CPU产能!英特尔被传敦促PC厂商转用18A高端芯片

本地新闻

别搜晋江小说了,去看真的晋江

旅游要闻

洱海边惊现棒棒糖花海,苍山为被洱海为席相当出片,且完全免费!

无障碍浏览 进入关怀版