网易首页 > 网易号 > 正文 申请入驻

OpenAI发布o3系列模型“剑指”AGI 北大毕业生打造

0
分享至

12月21日,OpenAI连续12个工作日的直播发布活动正式收官,与第一天发布正式版o1模型相对应的是,最后一天OpenAI首席执行官山姆·奥特曼推出了该公司的下一代大模型并将其命名为o3,o3在一系列测试中的表现超过了o1,并在一项关于通往AGI(通用人工智能)的测试中表现优异。

不过,同今年年中发布o1预览版时相同,山姆·奥特曼坦言o1仍然需要进行安全测试,并没有公开具体的对外界开放的日程表。取而代之的是o3-mini(即迷你版本)会在明年1月底发布。值得注意的是,o3-mini的训练者是北大计算机系毕业,后在斯坦福获得博士学位的任泓宇。

总体来看,本次OpenAI持续约两周的发布活动算得上“量大管饱”,包括正式版本o1、Sora的“千呼万唤始出来”,也包括下一代模型o3的推出,中间还夹杂了一系列针对开发者、具体产品以及算法技术上的更新升级。但发布内容虽多,却并未再现像上半年视频模型Sora和多模态模型GPT-4o推出时那样带给业界的震撼,尤其是不少用户在使用过正式发布的Sora后发现该产品仍然存在较多缺陷,并非明显优于国内视频模型。这或许说明OpenAI虽然仍是AI大模型领域的佼佼者,但已并非望尘莫及。

o3大模型现身 Arc AGI测试题得分超过人类阈值


从左至右分别为Arc Prize基金会主席Greg Camerad、OpenAI研究主管Mark Chen、OpenAI首席执行官山姆·奥特曼。

本次OpenAI的“收官”直播,山姆·奥特曼与OpenAI高级副总裁、研究主管Mark Chen担任主持人,另外还有两位解说嘉宾分两次上场。

在“上半场”,Mark首先介绍了o3大模型的能力:在一项由现实世界软件任务组成的基准测试中,o3得分71.7,超过了得分48.9的o1和得分41.3的o1 preview(预览版)。而在一项名为Elo的竞争性编程能力测评上,o3取得了2727分,o1评分1891,o1 preview评分1258,o3的性能已经达到了o1 preview的两倍多。而在数学基准测试中o3的得分为96.7,也超过了前两者的83.3分和56.7分,“这表示我们正在攀登实用性的前沿。”Mark说。

作为对比,Mark本人就是计算机专家,他还曾指导过类似的编程竞赛,但他本人在编程测评上的最好成绩约为2500分,这一点上他被o3击败了。不过他在数学竞赛上的最高分是满分,这一点上o3仍然无法达到人类顶尖水平。“这么说,我就安全了。”山姆·奥特曼对此打趣道。

事实上,在OpenAI的最后一场直播之前,有很多网友猜测其是否能够再次震撼业界,如推出一款通往AGI的跨时代产品。而第一位嘉宾——Arc Prize基金会主席Greg Camerad的出场证实了网友的猜测方向。

Arc Prize是一个非营利性组织,其推出了“通用人工智能抽象和推理语料库”(ARC-AGI)基准,来衡量AI在获取在未知任务上的效率,该组织为AGI所下的定义为:一个可以在其训练数据之外有效地获得新技能的系统。

Greg Camerad表示,该组织的测试题旨在验证大模型在通往AGI方向上的水平,目前o3取得了该组织经验证过的最高分:在低算力配置下,其准确率达到75.7%,高算力下的表现提升至87.5%,而人类平均水平的阈值为85%,这意味着o3在该项测评中的表现已经达到了人类水平,这是一个重要的里程碑,而在o3达到这一水平之前,该测试题已经5年未被攻克。

不过,ARC Prize组织方面也表示,这并不代表已经实现了AGI,因为o3在某些简单任务上仍有失误,该组织会继续举办大奖赛,直到出现一个取得85%成绩的高效开源解决方案。根据ARC Prize组织透露的数据,高算力下的o3模型执行每个任务的消耗高达1000美元

o1-mini首先推出 北大毕业生任泓宇担纲训练任务


OpenAI研究员任泓宇(左)介绍o3-mini大模型。

虽然o3成为了OpenAI最先进的大模型,不过山姆·奥特曼也坦言,o3不会马上对外开放,理由是该大模型仍然需要进行安全测试。不过他表示将首先开放外部安全测试申请,同时明年1月底将率先开放o3-mini大模型。

在本次直播的“下半场”,山姆·奥特曼表示“o3-mini是我们真正感到兴奋的大模型,而训练该大模型的任泓宇将加入我们。”贝壳财经记者了解到,任泓宇本科毕业于北京大学计算机系,后在斯坦福获得博士学位,早在o1-mini推出时,他就担任了训练任务。

相比o3模型,o3-mini在性能与成本平衡方面表现更加出色,能够以较低成本提供高效服务。根据任泓宇的演示,o3-mini在编程上展现出了出色的性能,随着思考时间的增加,o3-mini模型的表现不断提升,性能超越o1-mini。

任泓宇表示,在中位思考时间下,o3-mini胜过正式版o1模型,能够以大约一个数量级的更低成本提供相当甚至更好的代码性能。此外,o3-mini的响应时间大大缩短,达到了o1的一半。

在实用演示中,用户在文本框中输入编码请求后,模型能够迅速将请求发送至API,并自动解决任务,生成代码并保存至桌面,随后自动打开终端执行代码。整个过程复杂且涉及大量代码处理,但o3-mini模型在低成本模式下依然表现出了极快的处理效率。

最后,Mark介绍,OpenAI推出了一款被称为审慎对齐的新技术,以找到具体的安全边界,让大模型知道什么时候该审查或拒绝用户提出的需求,但又不会过度拒绝。

“现在你可以填写申请表,进行对o3和o3-mini的外部安全测试,有越多人进行安全测试,就能越快确保我们达到明年1月底发布o3-mini以及之后发布o3的目标。”山姆·奥特曼在直播最后表示。

新京报贝壳财经记者 罗亦丹

编辑 曲筱艺

校对 赵琳

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
51岁叶檀住院复查后续:癌症晚期已骨转移,主治医生评分不太乐观

51岁叶檀住院复查后续:癌症晚期已骨转移,主治医生评分不太乐观

好妈妈看娱乐
2024-12-21 11:14:12
俄罗斯喀山一高层住宅楼被两架无人机击中

俄罗斯喀山一高层住宅楼被两架无人机击中

新京报
2024-12-21 15:00:05
民俗学家回应不宜祝“冬至快乐”:过度忌讳

民俗学家回应不宜祝“冬至快乐”:过度忌讳

鲁中晨报
2024-12-21 16:59:18
中方货轮破坏海底光缆终于发生逆转!中方回应后欧盟总算老实安静

中方货轮破坏海底光缆终于发生逆转!中方回应后欧盟总算老实安静

头条爆料007
2024-12-21 12:00:28
断裂树枝悬挂马路上方,54岁女子骑车撞上不幸身亡!交警认定死者主责,当地政府次责,双方均有异议

断裂树枝悬挂马路上方,54岁女子骑车撞上不幸身亡!交警认定死者主责,当地政府次责,双方均有异议

鲁中晨报
2024-12-20 23:23:12
扎克伯格被曝离婚!以前灰T恤、头发乱糟糟, 现在开始西装革履头发也一丝不苟

扎克伯格被曝离婚!以前灰T恤、头发乱糟糟, 现在开始西装革履头发也一丝不苟

互联网大观
2024-12-21 14:01:07
网传江苏一对夫妻开自动驾驶后睡着,结果发生车祸把人给送走

网传江苏一对夫妻开自动驾驶后睡着,结果发生车祸把人给送走

映射生活的身影
2024-12-21 12:02:20
32岁浙江女子连生9娃,老公不是富二代,一顿饭1000块,底气是啥

32岁浙江女子连生9娃,老公不是富二代,一顿饭1000块,底气是啥

一娱三分地
2024-12-20 21:55:03
日本十大最好看女优排行榜,有你认识的吗?

日本十大最好看女优排行榜,有你认识的吗?

生活大关注
2024-12-21 12:01:50
叶柯现身酒店被偶遇,穿搭时尚心情超好,小腹隆起孕肚明显

叶柯现身酒店被偶遇,穿搭时尚心情超好,小腹隆起孕肚明显

扒虾侃娱
2024-12-21 14:06:06
全线大跳水!超32万人爆仓

全线大跳水!超32万人爆仓

中国基金报
2024-12-20 19:20:16
终于实现小区自治了,从上周开始,我们小区门岗空了,物业撤离了

终于实现小区自治了,从上周开始,我们小区门岗空了,物业撤离了

笑熬浆糊111
2024-12-21 00:05:29
为什么不能倒水冲马桶?幸亏知道了,怪不得马桶臭

为什么不能倒水冲马桶?幸亏知道了,怪不得马桶臭

室内设计师有料儿
2024-12-08 23:40:14
网传胡赛武装发言人叶海亚已经被炸身亡!

网传胡赛武装发言人叶海亚已经被炸身亡!

去非
2024-12-21 07:06:39
京东发布“手机测血压”技术:无需额外设备 30秒出结果!

京东发布“手机测血压”技术:无需额外设备 30秒出结果!

快科技
2024-12-21 00:23:15
叶海亚,死定了。。

叶海亚,死定了。。

听剑枫林醉
2024-12-21 12:12:17
留几手曝大雷,多年前就是gay并且是“受方”,舔脚趾照片流出

留几手曝大雷,多年前就是gay并且是“受方”,舔脚趾照片流出

南城无双
2024-12-20 23:30:21
"驱逐"中囯外交官,准备与中囯战斗,叫嚣:中囯必须收下货品

"驱逐"中囯外交官,准备与中囯战斗,叫嚣:中囯必须收下货品

小胡军事爱好
2024-12-20 21:48:49
伊朗局势比也门更糟糕!胡塞挨炸后9小时供电,伊电厂停运10天了

伊朗局势比也门更糟糕!胡塞挨炸后9小时供电,伊电厂停运10天了

大风文字
2024-12-21 11:32:05
敢问专家,这些英雄可有资格进入历史课本,进入教材?

敢问专家,这些英雄可有资格进入历史课本,进入教材?

千古看当今
2024-12-18 15:00:02
2024-12-21 17:51:00
新京报 incentive-icons
新京报
好新闻,无止境
470017文章数 2495719关注度
往期回顾 全部

科技要闻

OpenAI最强推理模型o3发布!但明年才能用

头条要闻

与美国代表团首次会谈后 叙利亚新政权发声

头条要闻

与美国代表团首次会谈后 叙利亚新政权发声

体育要闻

“他不再是那个数据刷子了”

娱乐要闻

叶柯现身酒店被偶遇 心情超好 小腹隆起孕肚明显

财经要闻

国潮褪去,李宁掉队!

汽车要闻

预售37.98万 坦克500Hi4-Z将于1月1日上市

态度原创

教育
游戏
房产
健康
家居

教育要闻

【地理辨析】沙丘、流动沙丘、植物线性沙丘、含水层、隔水层、弱透水层

《咒语力量:征服埃欧大陆》免费更新 加入起源设定

房产要闻

史无前例!14小时!狂抢1064轮,三亚诞生新地王,楼面价21191元/㎡

花18万治疗阿尔茨海默病,值不值?

家居要闻

现代轻奢 新中式的和谐交响

无障碍浏览 进入关怀版