网易首页 > 网易号 > 正文 申请入驻

OpenAI 的 o3 AI 模型在基准测试中的表现差于宣传描述

0
分享至

OpenAI 的 o3 AI 模型的第一方和第三方基准测试结果之间的差异引发了人们对该公司透明度和模型测试实践的质疑。OpenAI于 12 月发布 o3时,声称该模型能够解答 FrontierMath(一组颇具挑战性的数学问题)中略高于四分之一的题目。这一成绩远远超出了竞争对手——排名第二的模型也只能正确解答 FrontierMath 题目的 2% 左右。


OpenAI 首席研究官 Mark Chen在直播中表示:“目前,所有产品在 FrontierMath 上的得分都不到 2%。我们内部看到,在激进的测试时间计算设置下,o3 的得分能够超过 25%。”

事实证明,这个数字很可能是一个上限,由 o3 的一个版本实现,其背后的计算能力比 OpenAI 上周公开发布的模型更强。

FrontierMath 背后的研究机构 Epoch AI 周五公布了其对 o3 的独立基准测试结果。Epoch 发现 o3 的得分约为 10%,远低于 OpenAI 宣称的最高得分。

这并不意味着 OpenAI 本身撒了谎。该公司 12 月发布的基准测试结果显示,其得分下限与 Epoch 观察到的得分一致。Epoch 还指出,其测试设置可能与 OpenAI 不同,并且其评估使用的是 FrontierMath 的更新版本。

Epoch 写道:“我们的结果与 OpenAI 的结果之间的差异可能是由于 OpenAI 使用更强大的内部支架进行评估,使用了更多的测试时间[计算],或者因为这些结果是在 FrontierMath 的不同子集上运行的(frontiermath-2024-11-26 中的 180 个问题与 frontiermath-2025-02-28-private 中的 290 个问题),”

根据ARC 奖基金会(一个测试过 o3 预发布版本的组织)在 X 上的一篇文章,公共 o3 模型“是一个针对聊天/产品使用进行调整的不同模型”,证实了 Epoch 的报道。

ARC Prize 写道:“所有已发布的 o3 计算层都比我们[基准测试]的版本要小。” 一般来说,更大的计算层有望获得更好的基准测试分数。

OpenAI 的技术人员周文达 (Wenda Zhou)在上周的直播中表示,与 12 月演示的 o3 版本相比,生产版 o3“针对实际用例进行了更优化”,速度也更快。因此,它可能会表现出基准测试的“差异”,他补充道。

“我们已经做了一些优化,使这个模型更具成本效益,并且总体上更有用,”周说道。“我们仍然希望——我们仍然认为——这是一个更好的模型[…] 当你需要答案时不必等待太久,而这些[类型的]模型确实做到了这一点。”

诚然,o3 的公开发布未能达到 OpenAI 的测试承诺这一事实有点无意义,因为该公司的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上的表现优于 o3,而且 OpenAI 计划在未来几周推出更强大的 o3 变体 o3-pro。

然而,这再次提醒我们,最好不要只看表面价值来理解人工智能基准——尤其是当其来源是一家出售服务的公司时。

随着供应商竞相利用新模型吸引眼球并抢占市场份额,基准测试“争议”正在成为人工智能行业的常见现象。今年 1 月,Epoch因迟迟未披露 OpenAI 的资助而受到批评,直到 OpenAI 宣布 o3 项目后才披露。许多为 FrontierMath 做出贡献的学者直到 OpenAI 公开宣布后才得知此事。

最近,埃隆·马斯克的 xAI 被指发布了其最新 AI 模型 Grok 3 的误导性基准图表。就在本月,Meta 承认其吹捧的模型版本基准分数与该公司向开发人员提供的版本不同。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

特朗普政府正式撤销拜登执政时期的人工智能技术扩散规则

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
通化市委书记孙简升任吉林省副省长

通化市委书记孙简升任吉林省副省长

澎湃新闻
2025-05-13 17:46:27
超级逆转2-1!WTA罗马赛首个四强诞生,郑钦文激战克星萨巴伦卡

超级逆转2-1!WTA罗马赛首个四强诞生,郑钦文激战克星萨巴伦卡

知轩体育
2025-05-13 23:42:43
广东省中医院脾胃病科大科主任张北平病逝,年仅52岁

广东省中医院脾胃病科大科主任张北平病逝,年仅52岁

澎湃新闻
2025-05-13 22:38:27
退出北约?绝不与中俄为敌!最大盟友一夜倒戈,特朗普猝不及防

退出北约?绝不与中俄为敌!最大盟友一夜倒戈,特朗普猝不及防

上观韬略
2025-05-13 18:01:15
恶搞"印度坠机",丢脸丢到全世界

恶搞"印度坠机",丢脸丢到全世界

难得君
2025-05-12 14:00:59
美预言家朱迪再爆猛料:美日中命运已定,此岛将首遭灾

美预言家朱迪再爆猛料:美日中命运已定,此岛将首遭灾

心灵短笛
2025-05-12 10:05:25
别再吹歼10了,这次真正的赢家是... ...

别再吹歼10了,这次真正的赢家是... ...

诗与星空
2025-05-13 08:00:08
近期签订了超547亿元的重大合同!刚刚,这家A股公司重磅宣布

近期签订了超547亿元的重大合同!刚刚,这家A股公司重磅宣布

每日经济新闻
2025-05-12 18:17:07
“30万存款定律”:存够30万就被收割?为什么大多数人攒不下钱

“30万存款定律”:存够30万就被收割?为什么大多数人攒不下钱

李砍柴
2025-05-13 00:26:38
反转了!婚庆公司婚礼上撤场事件:婚庆公司爆出双方聊天记录

反转了!婚庆公司婚礼上撤场事件:婚庆公司爆出双方聊天记录

魔都姐姐杂谈
2025-05-13 15:46:24
小米遭遇退车风波!最新回应:可协商取消订单,但不能退回定金

小米遭遇退车风波!最新回应:可协商取消订单,但不能退回定金

大象新闻
2025-05-12 23:50:07
宣布了!中国男篮新星手术!左手骨折打完24-25赛季

宣布了!中国男篮新星手术!左手骨折打完24-25赛季

篮球实战宝典
2025-05-13 23:27:56
4.2万元“挖孔”前舱盖受质疑,小米SU7 Ultra陷退定风波,有锁单用户:若无法退定不打算提车

4.2万元“挖孔”前舱盖受质疑,小米SU7 Ultra陷退定风波,有锁单用户:若无法退定不打算提车

时代财经
2025-05-13 23:25:06
关税骤降,A股还跌?

关税骤降,A股还跌?

隔壁老投
2025-05-13 14:30:19
吴艳妮再惹众怒,穿辱华品牌遭抵制,网友:全国第一也不行

吴艳妮再惹众怒,穿辱华品牌遭抵制,网友:全国第一也不行

白面书誏
2025-05-13 17:30:09
“男子投诉环保问题被打断肋骨,获赔300万后被判寻衅滋事退款”新进展:重审改判无罪,检方抗诉

“男子投诉环保问题被打断肋骨,获赔300万后被判寻衅滋事退款”新进展:重审改判无罪,检方抗诉

大风新闻
2025-05-13 11:57:05
致敬!开拓者最新球队市值约36亿美元!老板遗愿将全部捐出!

致敬!开拓者最新球队市值约36亿美元!老板遗愿将全部捐出!

直播吧
2025-05-14 01:37:09
哈工大火了!学生吃饭时发现留学生的肉多几倍,学校连夜开会整改

哈工大火了!学生吃饭时发现留学生的肉多几倍,学校连夜开会整改

丫头舫
2025-05-13 15:16:41
凌晨,莫迪发声:巴主动求和,印造武器被验证,世界见证印的强大

凌晨,莫迪发声:巴主动求和,印造武器被验证,世界见证印的强大

说天说地说实事
2025-05-13 07:40:32
荒唐到什么地步,才能做出这等毫无底线的事!

荒唐到什么地步,才能做出这等毫无底线的事!

胖胖说他不胖
2025-05-13 16:51:57
2025-05-14 02:15:00
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
61552文章数 69623关注度
往期回顾 全部

科技要闻

京东外卖首战业绩如何?创新业务狂揽57亿

头条要闻

中企电话被美国客户打爆:现在一船难求 已接近爆舱

体育要闻

离开曼联,他在马拉多纳的城市成为明星

娱乐要闻

张柏芝母亲节上热搜!3个儿子引热议

财经要闻

老股民被收割670万 杀猪盘牵出20亿大案

汽车要闻

或2027年发布 全新宝马1系假想图曝光

态度原创

数码
家居
房产
时尚
军事航空

数码要闻

英伟达 GeForce RTX 5060 显卡启动预约,5 月 20 日 0 点开售

家居要闻

简洁纯净 空灵的东方妙境

房产要闻

58 万人等哭了!老黄埔高端商圈为何难产20年?!

松弛感穿搭太适合夏天了,减龄又好看

军事要闻

印巴停火后莫迪讲话:只是"暂停"军事行动