网易首页 > 网易号 > 正文 申请入驻

OpenAI o3模型自测成绩与第三方测试结果差异显著,透明度与测试方法遭质疑

0
分享至

2025年4月17日,OpenAI发布了其最新多模态推理大模型o3与o4-mini,宣称这是其迄今为止最强、最智能的模型。然而,这一发布并未如预期般获得广泛赞誉,反而因自测成绩与第三方测试结果的显著差异,引发了对其透明度和测试方法的质疑。

去年12月,OpenAI在预发布o3时,曾高调宣称该模型在解决FrontierMath(一组极具挑战性的数学问题)上的能力大幅提升,能够正确回答超过25%的问题。这一成绩远超竞争对手,排名第二的模型仅能正确回答约2%的问题。然而,第三方测试机构Epoch AI于4月18日公布的独立基准测试结果显示,o3的实际得分仅为约10%,远低于OpenAI声称的最高得分25%。

这一差异引发了外界对OpenAI测试实践的质疑。Epoch AI在报告中指出,测试设置的差异、评估使用的FrontierMath版本更新,以及计算资源和框架的不同,都可能是导致结果差异的原因。例如,Epoch AI在评估时依据的是2024年11月26日版本的180个问题,而OpenAI则可能使用了2025年2月28日的私有版本的290个问题。此外,OpenAI在内部测试中可能使用了更强大的计算资源和框架,这也在一定程度上解释了其自测成绩的显著提升。

尽管OpenAI并未刻意误导,但其在12月公布的测试结果中确实包含了一个与Epoch测试结果相符的较低分数。ARCPrize Foundation也在其社交平台上表示,公开发布的o3模型和预发布版本“是一个不同的模型……针对聊天/产品使用进行了调优”,这进一步证实了Epoch AI的报告。

随着AI模型供应商竞相利用新模型抢占头条和市场份额,基准测试“争议”在人工智能行业中已成为一种常见现象。例如,埃隆·马斯克的xAI被指控其最新人工智能模型Grok 3的基准测试图表具有误导性,而Meta的新一代开源大模型Llama 4也遭遇了作弊质疑。这些事件凸显了标准化测试的重要性,也提醒业界需谨慎对待来自商业公司的基准测试结果。

OpenAI o3模型的自测成绩与第三方测试结果的显著差异,不仅引发了对其透明度和测试方法的质疑,也反映了人工智能行业中基准测试的复杂性和挑战。在竞争日益激烈的背景下,如何确保测试结果的公正性和透明度,将成为行业未来发展的重要议题。

本文源自:金融界

作者:观察君

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台湾网红与张雪见面:你是我偶像!台湾把你视为神 见到820激动

台湾网红与张雪见面:你是我偶像!台湾把你视为神 见到820激动

念洲
2026-05-26 18:15:02
男子打赏女主播74万余元,多次要求见面被拒后起诉要回,“她说过要跟我‘生猴子’”,法院判了!其已累计打赏超千名主播460万元

男子打赏女主播74万余元,多次要求见面被拒后起诉要回,“她说过要跟我‘生猴子’”,法院判了!其已累计打赏超千名主播460万元

大风新闻
2026-05-26 22:10:58
53岁袁立病房照曝光!钱再多有什么用?她给所有中年女人提了个醒

53岁袁立病房照曝光!钱再多有什么用?她给所有中年女人提了个醒

文刀贰
2026-05-24 21:21:45
45辆新车在境外离奇消失!45笔零首付车贷,拖垮数十名普通人

45辆新车在境外离奇消失!45笔零首付车贷,拖垮数十名普通人

方圆
2026-05-25 14:50:41
官方通报“维也纳酒店牙刷刷马桶”“全季酒店用客人牙刷洗杯子后放回”:约谈涉事酒店负责人,责令立即整改,将根据调查核实情况严肃处理

官方通报“维也纳酒店牙刷刷马桶”“全季酒店用客人牙刷洗杯子后放回”:约谈涉事酒店负责人,责令立即整改,将根据调查核实情况严肃处理

大风新闻
2026-05-26 11:12:07
不声不响从5元涨到132,上涨26倍,有几个投资者能拿到现在?

不声不响从5元涨到132,上涨26倍,有几个投资者能拿到现在?

丁丁鲤史纪
2026-05-26 17:44:43
武契奇坐小飞机访华,但中方给塞尔维亚的东西,10架运20都装不下

武契奇坐小飞机访华,但中方给塞尔维亚的东西,10架运20都装不下

健身狂人
2026-05-26 18:13:16
苏超丑闻!曝20岁球员与5拉拉队员淫乱+有未成年 疑是双胞胎之一

苏超丑闻!曝20岁球员与5拉拉队员淫乱+有未成年 疑是双胞胎之一

念洲
2026-05-26 16:59:20
8枪秒杀七人,一人反杀120名黑社会成员,行凶者是职业杀手所为!

8枪秒杀七人,一人反杀120名黑社会成员,行凶者是职业杀手所为!

易玄
2026-05-26 11:23:01
投毒杀人者、 三体公司原CEO许垚被执行死刑

投毒杀人者、 三体公司原CEO许垚被执行死刑

经济观察报
2026-05-26 09:53:04
王鹤棣父亲回应店铺遭多条差评:生意下降了40%,白天晚上都有影响

王鹤棣父亲回应店铺遭多条差评:生意下降了40%,白天晚上都有影响

封面新闻
2026-05-26 19:12:38
中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

细说职场
2026-05-26 14:40:46
胡金秋10中8高效18+7:陷犯规麻烦防守不敢做动作 末节爆发无用

胡金秋10中8高效18+7:陷犯规麻烦防守不敢做动作 末节爆发无用

醉卧浮生
2026-05-26 21:33:44
18.99万起,奔驰新车官宣:6月11日,正式上市

18.99万起,奔驰新车官宣:6月11日,正式上市

科技堡垒
2026-05-25 12:00:29
布伦森动情痛哭!1.88米次轮秀创8纪录 美媒:降薪1.13亿成经典

布伦森动情痛哭!1.88米次轮秀创8纪录 美媒:降薪1.13亿成经典

颜小白的篮球梦
2026-05-26 17:20:34
住院新规来了!白天治疗、晚上回家,陪护不再全家熬(政策解读)

住院新规来了!白天治疗、晚上回家,陪护不再全家熬(政策解读)

李博世财经
2026-05-26 10:01:57
骑士今夏如何引援冲冠?美媒列三大目标:字母居首哈登前队友在列

骑士今夏如何引援冲冠?美媒列三大目标:字母居首哈登前队友在列

罗说NBA
2026-05-26 16:51:57
闹大了!庾澄庆被淘汰后不忍了,公开内涵《歌手》节目组

闹大了!庾澄庆被淘汰后不忍了,公开内涵《歌手》节目组

秋姐居
2026-05-26 19:34:25
第三轮第六批中央生态环境保护督察公布广东广西两省区典型案例

第三轮第六批中央生态环境保护督察公布广东广西两省区典型案例

新京报
2026-05-26 10:14:20
这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,露的好辣眼

这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,露的好辣眼

嫹笔牂牂
2026-05-26 07:30:48
2026-05-26 22:32:49
金融界 incentive-icons
金融界
投资者信赖的财经金融门户网站
9194706文章数 546412关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

团伙在上海高速碰瓷涉案60多万:定下每天1万5的KPI

头条要闻

团伙在上海高速碰瓷涉案60多万:定下每天1万5的KPI

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

手机
本地
旅游
房产
公开课

手机要闻

荣耀600e中端手机今日海外发布

本地新闻

用云锦的方式,打开江苏南京

旅游要闻

与辉同行山东行 |《我们的幕后》山东Day2

房产要闻

招商地产接盘碧桂园!海口这个烂尾豪宅,要彻底改命?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版