网易首页 > 网易号 > 正文 申请入驻

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

0
分享至

财联社4月21日讯(编辑 刘蕊)北京时间4月17日凌晨,OpenAI的多模态推理大模型o3与o4-mini重磅上线,这一大模型号称是OpenAI迄今最强、最智能的模型。

然而,研究机构很快发现,o3人工智能模型的开发方和第三方基准测试结果存在明显差异,这引发了人们对该公司透明度和模型测试实践的质疑。

OpenAI测试作弊了?

去年12月,OpenAI在预发布o3时,就强调了该模型在解决困难问题上的能力大幅提升。当时OpenAI声称,该模型可以回答FrontierMath(一组具有挑战性的数学问题)中超过25%的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约2%的FrontierMath问题。

OpenAI首席研究官Mark Chen当时在直播中表示:

“今天,所有大模型产品(能解决的FrontierMath问题的数量)的比例都不到2%…我们(在内部)看到,在积极的测试时间计算设置中,我们能够获得超过25%的解题率。”

但第三方测试证明,这个25%的数字很可能并不准确。

美东时间上周五(4月18日),开发“FrontierMath”的研究机构“Epoch AI”公布了“o3”的独立基准测试结果。Epoch发现,o3的得分约为10%,远低于OpenAI声称的最高得分25%。

当然,这并不意味着OpenAI一定在撒谎。该公司去年12月发布的基准测试结果显示,其得分的下限与Epoch AI观察到的得分相当。Epoch AI还指出,他们的测试设置可能与OpenAI不同,即他们使用了FrontierMath的更新版本进行评估。

Epoch AI写道:“我们的结果与OpenAI之间的差异可能是由于OpenAI使用更强大的内部框架进行评估,使用更多的测试时间(计算),或者因为这些结果运行在FrontierMath的不同子集上(FrontierMath -2024-11-26中的180个问题vs FrontierMath -2025-02-28-private中的290个问题)。”

根据ARC Prize Foundation(一个测试过o3预发布版本的组织)在X上的一篇文章,公开发布的o3模型和预发布版本“是一个不同的模型……针对聊天/产品使用进行了调优”,这证实了Epoch AI的报告。

“所有正式发布的o3计算层都比我们(之前基准测试)的版本小,”ARC Prize写道,一般来说,计算层越大,获得的基准测试分数也会越高。

基准测试争议已成广泛问题

随着AI模型供应商竞相利用新模型抢占头条和市场份额,在人工智能行业,基准测试“争议”正在成为一种常见现象,

比如最近,埃隆·马斯克的xAI被指控,其最新人工智能模型Grok 3的基准测试图表具有误导性。

本月早些时候,Meta的新一代开源大模型Llama 4也遭遇了作弊质疑,而Meta公司承认,其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
申花球迷意难平!不止因为1-2惜败新鹏城,更多在于以下这五点!

申花球迷意难平!不止因为1-2惜败新鹏城,更多在于以下这五点!

田先生篮球
2026-05-24 22:31:01
职场上近亲繁殖、交换任职快泛滥成灾了!

职场上近亲繁殖、交换任职快泛滥成灾了!

灯锦年
2026-05-18 16:05:17
我国即将载人登月!详细计划表公布:3次无人绕月、1次载人登月!

我国即将载人登月!详细计划表公布:3次无人绕月、1次载人登月!

科学知识点秀
2026-05-24 08:00:21
给老人吃死螃蟹、给小孩吃沾泥爆米花“慈善家”流动小厨坏事做尽

给老人吃死螃蟹、给小孩吃沾泥爆米花“慈善家”流动小厨坏事做尽

3DM游戏
2026-05-12 13:07:37
男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

心理观察局
2026-05-04 08:20:08
少妇的美,是成熟的

少妇的美,是成熟的

疾跑的小蜗牛
2026-05-24 19:12:30
“骨盆前倾成这样,还不去医院?”家长晒一年级女儿体态,被群嘲

“骨盆前倾成这样,还不去医院?”家长晒一年级女儿体态,被群嘲

妍妍教育日记
2026-04-24 11:15:25
真人秀男星每月还贷5.5万美元崩溃:前妻与我好友恋情"完全没预料到"

真人秀男星每月还贷5.5万美元崩溃:前妻与我好友恋情"完全没预料到"

浅遇时光
2026-05-25 00:01:00
投500万只剩30万,全国5万个家庭,陷入千亿骗局

投500万只剩30万,全国5万个家庭,陷入千亿骗局

鉴史录
2026-05-21 15:13:52
心理学研究发现:凡是主动减少无效社交、经常独处的人,不是性格孤僻,也不是不合群,而是深刻理解了两个人际关系的能量守恒定律

心理学研究发现:凡是主动减少无效社交、经常独处的人,不是性格孤僻,也不是不合群,而是深刻理解了两个人际关系的能量守恒定律

心理观察局
2026-05-21 07:14:10
道教为什么容不下出马仙?不是傲慢,是1800年前划下的一条红线

道教为什么容不下出马仙?不是傲慢,是1800年前划下的一条红线

户外阿崭
2026-05-23 13:31:29
全网炸锅!阿Sa闪婚20天就散伙,分手原因没想象的那么简单?

全网炸锅!阿Sa闪婚20天就散伙,分手原因没想象的那么简单?

庭小娱
2026-05-22 10:18:14
国产速干裤,已经进化到这种程度了...

国产速干裤,已经进化到这种程度了...

超级数学建模
2026-05-23 22:35:19
陈慧琳弟弟陈司翰罕露面!49岁中年发福但气质儒雅,至今未婚未育引热议

陈慧琳弟弟陈司翰罕露面!49岁中年发福但气质儒雅,至今未婚未育引热议

今古深日报
2026-05-24 11:21:31
郝蕾的身材本来就很丰腴,现在又胖了很多,感觉衣服都快撑开了

郝蕾的身材本来就很丰腴,现在又胖了很多,感觉衣服都快撑开了

小椰的奶奶
2026-05-24 21:49:59
张碧晨回应《歌手》跑调:我觉得我自己确实是没有发挥好

张碧晨回应《歌手》跑调:我觉得我自己确实是没有发挥好

韩小娱
2026-05-24 20:07:28
发现一个奇怪的现象:凡是情绪稳定、睡眠好、不焦虑的人,都有一个共性,那就是再大的事也不搁在心里,再恶劣的环境也能想办法适应

发现一个奇怪的现象:凡是情绪稳定、睡眠好、不焦虑的人,都有一个共性,那就是再大的事也不搁在心里,再恶劣的环境也能想办法适应

LULU生活家
2026-04-24 19:12:24
周琦赵睿年薪比600万多?付政浩道破机密,拿这么多钱划水太可恶

周琦赵睿年薪比600万多?付政浩道破机密,拿这么多钱划水太可恶

弄月公子
2026-05-24 17:08:54
徐留平被查,据传3月份已被带走

徐留平被查,据传3月份已被带走

新浪财经
2026-05-24 09:28:14
B费本赛季英超直接参与30粒进球,贡献9球21次助攻

B费本赛季英超直接参与30粒进球,贡献9球21次助攻

懂球帝
2026-05-25 00:32:30
2026-05-25 00:48:49
财联社 incentive-icons
财联社
以“准确、快速、权威、专业”为新闻准则,为投资者提供专业的投资资讯。
723172文章数 1021037关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

什么情况下,本轮AI大行情会结束?

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

游戏
艺术
教育
数码
健康

《霍格沃茨之遗》续作或将公布?知名爆料人暗示

艺术要闻

砸12亿!中国第一座“星穹大球”,上海人沸腾!

教育要闻

养女儿一定要懂的道理!

数码要闻

618游戏本怎么选?ROG魔霸新锐2026来袭,福利秒杀让战力飞

外泌体 ≠ 生长因子!它们之间究竟有何区别?

无障碍浏览 进入关怀版