网易首页 > 网易号 > 正文 申请入驻

OpenAI o3模型压轴登场,攻破极难数学题,执行一次任务数千美元

0
分享至

在 OpenAI “十二连发”活动的最后一天,新一代推理模型 o3 终于压轴登场!

CEO 山姆·奥特曼(Sam Altman)在直播中宣布了新一代 o3 家族的诞生,包括 o3 和 o3-mini 两个版本,这是对今年早些时候发布的 o1 模型的全面升级。

至于中间的 o2 哪去了,奥特曼在直播中幽默地承认:“秉承着 OpenAI 一贯取名特别糟糕的传统,我们把它命名为 o3。” 当然,真实原因是为了避免与英国电信服务商 O2 可能产生的商标纠纷。

目前,o3和 o3-mini 尚未对公众广泛开放。OpenAI 计划首先向安全研究人员开放测试权限。奥特曼表示,o3-mini 将于明年 1 月底推出,并在不久后发布 o3。

根据 OpenAI 目前公布的信息,o3 展现出了前所未有的性能,不过在高算力设置下,单个任务的计算成本也是相当高昂(数千美元)。

在多项基准测试中,o3 不仅超越了前辈 o1,更是几乎是碾压所有其他主流 AI 模型。

例如,在 2024 年 AIME 美国数学邀请赛考试中,o3 仅做错一道题,取得了 96.7%的高分。

在研究生水平的生物、物理和化学问题集 GPQA Diamond 测试中,该模型取得了 87.7%的成绩。这意味着,面对此类科学知识,它的水平已经接近专业研究生水平。

在 SWE-bench Verified 编程能力测试中,o3 实现了 71.7%的准确率,而 o1 只有 48.9%。

另外在 Competition Code 测试中,o3 取得了 2727 Elo 的高分,超越 o1 900 多分。与人类相比,在测试中拿到 2400 分就已经超越了 99%的人类工程师,o3 的分数能在人类里排第 150 名。

更令人瞩目的是,在 EpochAI 的 FrontierMath 数学难题基准测试中,o3 解决了25.2%的问题,而在此前的研究中,其他所有模型的成绩甚至都未能超过2%。

FrontierMath 包含的数学难题是陶哲轩等数十位数学家共同设计的,旨在评估 AI 模型的高级推理能力,其中包含了目前数学研究中的主要细分领域,全都是难度极高的数学挑战。

面对这些问题,顶尖人类数学家可能需要数小时,甚至数天的时间才能解决,但 o3 最快只需要几分钟。人们原本认为这些难题可以在很长一段时间里难住 AI,但 o3 在处理复杂数学问题方面的跨越式进步,让许多人惊讶不已。

o3 的另一项重要突破是在 ARC-AGI 基准测试中的表现。这是一项自 2019 年创建以来一直未被攻克的视觉推理基准测试,用于评估 AI 系统能否在训练数据之外高效地获取新技能。

在高算力设置下,o3 取得了 87.5%的成绩,超过了人类 85%的平均水平。即使在低算力设置下,它也取得了 75.7%的成绩,是 o1 性能的三倍。

ARC Prize 基金会主席格雷格·卡姆拉特(Greg Kamradt)对此评价道:“看到这些结果,我不得不重新思考AI的能力极限。”

ARC-AGI 测试主要考察 AI 模型是否能像人类一样掌握图形变换的规律,很多问题人类可以依靠直觉轻易解决,却难倒了一大批 AI。

在这一点上,o3超越人类分数的意义重大,因为它暗示着AI系统在推理能力方面可能已经接近甚至超越人类水平,也是实现通用人工智能(AGI)道路上的重要突破。

o3 等推理模型的特点在于其“思维链”技术。与传统 AI 模型不同,推理模型会在回应之前进行“思考”,通过一系列行动来规划和推导解决方案。

这个过程类似于人类在解决复杂问题时的思考方式,模型会暂停、考虑相关提示,并在过程中“解释”其推理过程。虽然这个过程会比普通模型多花几秒到几分钟的时间,但换来的是在物理和数学等领域更可靠的表现。

新发布的 o3-mini 则引入了“自适应思考时间”功能。用户可以在低、中、高三种运算能力之间进行选择,通过调整模型的“思考时间”来平衡性能和效率。

计算能力越高,模型的思考时间就越长,表现就越出色。这种灵活性使得用户可以根据具体需求和资源限制来选择最适合的运算模式。

不过,这些突破性进展也伴随着潜在风险。

安全测试人员发现,o1 的推理能力使其比传统的“非推理”模型更容易试图欺骗人类用户,这种情况甚至超过了 Meta、Anthropic 和谷歌等公司的领先 AI 模型。

性能更强的 o3 是否会表现出更高的欺骗倾向,还有待OpenAI的红队合作伙伴发布测试结果。

为此,OpenAI 表示其正在使用“审慎对齐(deliberative alignment)”技术来确保 o 系列模型符合其安全原则,并在一项新研究中详细介绍了这项成果(论文在文末链接)。

据 OpenAI 介绍,审慎对齐训练采用了基于过程和基于结果的监督相结合的方式:

  • 我们首先训练一个 o 模型以提供实用性,但不需要任何与安全相关的数据。
  • 然后,我们构建一个[提示,完成](prompt, completion)对数据集,其中完成中的思维链引用规范。我们通过在系统提示中插入每个对话的相关安全规范文本、生成模型完成,然后从数据中删除系统提示来实现这一点。
  • 我们对该数据集执行增量监督微调(SFT,supervised fine-tuning),为模型提供强大的安全推理先验。通过 SFT,模型可以学习我们的安全规范的内容以及如何对其进行推理以生成一致的响应。
  • 最后,我们使用强化学习来训练模型,使其更有效地使用其思维链。为此,我们采用了一个可以访问安全策略的奖励模型来提供额外的奖励信号。

与 AI 模型安全有关的新研究努力都是值得鼓励的。

在 o3 发布之际,AI 推理模型领域正掀起一股前所未有的竞争热潮。深度学习研究公司DeepSeek 在 11 月推出了其首个推理模型 DeepSeek-R1,阿里巴巴的千问团队也发布了开源推理模型 QwQ。

谷歌等科技巨头也在积极布局这一领域,试图在这场技术革命中占据有利位置。这股推理模型热潮的兴起,部分源于传统的“暴力”扩展模型方法已经难以带来显著改进,促使研究人员开始探索新的技术路径。

然而,并非所有人都认为推理模型是最佳发展方向,尤其是这类模型需要大量计算资源,运行成本高昂。

根据 ARC-AGI 的说法,o3 模型在高算力设置下运行单个任务的成本高达数千美元(超过 3400 美元),即使在低算力设置下也要十美元左右。

此外,尽管最新的推理模型目前在基准测试上表现出色,但它们能否保持这种进步速度还存在不确定性。

值得一提的是,o3 的发布恰逢 OpenAI 的重要科学家阿莱克·拉德福德(Alec Radford)宣布离职。作为开创性 GPT 系列生成式 AI 模型(包括 GPT-3、GPT-4 等)学术论文的主要作者,拉德福德表示他将投身独立研究。

这一人事变动引发了业界对 OpenAI 未来发展方向的关注,也让人们开始思考 AI 领域的人才流动可能带来的影响。

目前,o3 和 o3-mini 尚未对外广泛开放,所以它们的真实表现尚未可知。如果真如 OpenAI 宣传的这样,那么我们离实现 AGI 还有多远呢?

参考资料:

https://arstechnica.com/information-technology/2024/12/openai-announces-o3-and-o3-mini-its-next-simulated-reasoning-models/

https://www.theverge.com/2024/12/20/24326036/openai-o1-o2-o3-reasoning-model-testing

https://techcrunch.com/2024/12/20/openai-announces-new-o3-model/

https://arcprize.org/blog/oai-o3-pub-breakthrough

https://openai.com/index/deliberative-alignment/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
开封2小时,细菌数量暴涨!很多人天天在喝,有人甚至进急诊……

开封2小时,细菌数量暴涨!很多人天天在喝,有人甚至进急诊……

南粤女声
2026-06-03 19:15:30
【2026.6.3】爆姐的饭后爆料:生命不止,爆料不息!

【2026.6.3】爆姐的饭后爆料:生命不止,爆料不息!

娱乐真爆姐
2026-06-03 22:48:20
甘肃最牛诈骗犯,刚出狱就冒充市委副书记,因政绩优秀而被抓

甘肃最牛诈骗犯,刚出狱就冒充市委副书记,因政绩优秀而被抓

神奇的锤子
2025-02-23 22:11:02
傅首尔自曝2年瘦了38斤:学会了健康地吃家常菜和点外卖

傅首尔自曝2年瘦了38斤:学会了健康地吃家常菜和点外卖

韩小娱
2026-06-03 05:32:52
14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

大鱼简科
2026-02-07 09:52:29
美股芯片股盘前大涨,迈威尔科技涨超10%,英特尔涨超7%,中概股普跌,国际油价拉升

美股芯片股盘前大涨,迈威尔科技涨超10%,英特尔涨超7%,中概股普跌,国际油价拉升

21世纪经济报道
2026-06-03 18:58:16
沙坦类药物7种,只有2种不伤肝,选错小心肝损伤!

沙坦类药物7种,只有2种不伤肝,选错小心肝损伤!

药师方健
2026-06-02 22:46:28
$1.36亿全现金交易!维州最贵豪宅及毗邻公寓楼出售

$1.36亿全现金交易!维州最贵豪宅及毗邻公寓楼出售

澳洲红领巾
2026-06-01 14:54:57
乌克兰相关人士表示,通过军事手段恢复乌克兰1991年边界是可能的

乌克兰相关人士表示,通过军事手段恢复乌克兰1991年边界是可能的

山河路口
2026-06-03 14:26:05
国际乒联亲宣!64岁蔡振华再破天花板,让刘国梁和乒坛“沉默”了

国际乒联亲宣!64岁蔡振华再破天花板,让刘国梁和乒坛“沉默”了

以茶带书
2026-05-05 17:10:10
暴雨一夜绝收570万亩!1.4万亿斤粮食却创新高!谁在吃气候红利?

暴雨一夜绝收570万亩!1.4万亿斤粮食却创新高!谁在吃气候红利?

三农雷哥
2026-06-03 16:30:51
女人有以下4种表现,往往是允许你撩的信号

女人有以下4种表现,往往是允许你撩的信号

叶飞飞情感屋
2026-06-03 19:20:31
72岁林青霞剪了短发年轻25岁不止,穿白色连衣裙,完全没有大妈味

72岁林青霞剪了短发年轻25岁不止,穿白色连衣裙,完全没有大妈味

蓓小西
2026-04-16 09:32:13
为什么领导都喜欢上班?网友曝光领导抽屉都是性用品:丝袜、套套

为什么领导都喜欢上班?网友曝光领导抽屉都是性用品:丝袜、套套

黯泉
2026-06-01 15:33:05
纳达尔:打破我在法网的纪录,比打破德约的24冠更难

纳达尔:打破我在法网的纪录,比打破德约的24冠更难

懂球帝
2026-06-03 23:45:34
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
穆里尼奥:我能让科纳特重返巅峰

穆里尼奥:我能让科纳特重返巅峰

绿茵狂热者
2026-06-03 00:03:08
从涨停到跌停,25万股民坐上过山车,*ST闻泰上演天地板

从涨停到跌停,25万股民坐上过山车,*ST闻泰上演天地板

21世纪经济报道
2026-06-03 16:31:50
曾是TVB实力派演员,如今却沦落拍短剧,这四位演员让人唏嘘不已

曾是TVB实力派演员,如今却沦落拍短剧,这四位演员让人唏嘘不已

手工制作阿歼
2026-06-04 01:38:39
郑钦文的失败是必然结果!爆红后商业代言邀约不断,疏于打球磨练

郑钦文的失败是必然结果!爆红后商业代言邀约不断,疏于打球磨练

童叔不飙车
2026-05-26 22:43:00
2026-06-04 03:08:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16788文章数 514996关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

游戏
本地
旅游
时尚
公开课

曝《塞尔达》传奇重制版将亮相!任天堂发布会下周见

本地新闻

用杨柳青年画的方式,打开天津

旅游要闻

“一票跨两省”还游客完整壶口 | 新京报社论

月经、初潮与生育真相,那些藏在动画片里的性启蒙

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版