网易首页 > 网易号 > 正文 申请入驻

OpenAI第一场直播就炸场!o1满血版上线,史上最贵订阅费1450/月

0
分享至

克雷西 一水 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI“双十二”第一天,直接抛出重磅炸弹——

最强推理模型o1,正式上线满血版,还有更强的Pro版本一同登台。

ChatGPT也推出了Pro订阅计划,一个月两百美金,直接成为了“世界最贵的大模型”。

CEO奥特曼与三名员工围坐桌前,一边演示一边介绍着新产品的特性。

整个发布会仅持续不到15分钟,但包含了巨大的信息量:

  • 相比preview版本,满血o1的数学和代码能力均大幅提升,Pro版则是再上一层楼。
  • 满血版推理速度更快,比preview快了60%。
  • 网友们期待的多模态推理,满血版o1也安排上了。

如奥特曼所说,满血版已经正式上线ChatGPT,作为预览的preview版从用户界面中消失了。

至于更强的o1 Pro则是ChatGPT Pro订阅用户的特权,除此之外,这些用户还可以获得o1满血版的不限量访问权限。

o1已支持多模态推理

接下来到了演示环节。

一开始,团队就拿满血版o1(左边)和o1-preview(右边)来了场竞速。

他们问了一个历史问题,回答过程be like:

列出二世纪的罗马皇帝,包括他们的统治时期和成就。

可以看出,满血版o1(14秒)早于o1-preview(33秒)完成了作答。再加上团队成员几次类似的离线测试,最终得出结论:

满血版o1的平均响应速度比o1-preview快了60%。

值得注意的是,通过一整套人类评估,OpenAI还发现满血版o1在推理时犯重大错误的频率比o1-preview少了34%

而满血o1的另一大亮点就是支持多模态输入,具备视觉推理能力,团队也进行了现场展示。

只见他们拿出了一张画着数据中心草图的A4纸,拍照上传后,原始提示词翻译后如下:

这里展示了一个高度简化的太空数据中心示意图。对于任何简化的假设,请提供理由。
你的任务是估算这个托管GPU的数据中心所需的散热器表面积的下限。在此过程中,还需要回答以下问题:
你如何处理太阳和深空?
热力学第一定律如何发挥作用?

这边团队成员们还在闲聊,10秒过后,模型就开始唰唰唰给答案了……

有意思的是,团队还特意给o1模型挖了个坑——故意省略了其中一个参数,以此来测试模型面对模糊问题的处理能力。

在团队看来,模型能够意识到这是一个重要但被忽略的参数,也是推理能力的体现。

惊喜的是,满血版o1不仅选择了正确的参数范围,还通过进一步的细致论证最终找出了准确参数。

(如模型所回答,正确答案是242)

最后,团队也展示了“大会员”专用的Pro版的表现。

既然是Pro,那测试的问题当然也要上上难度。

团队成员指出,一些高难度的生化问题,以往o1-preview都搞不定,这下让Pro mode来试试。

比如下面这道o1-preview曾“束手无策”的“猜蛋白质”问题:

哪个蛋白质严格符合以下标准?
前体多肽的长度为210到230个氨基酸残基。
编码该蛋白质的基因跨越32k碱基。
该基因位于X染色体上,特别是在Xp22区域。
信号肽包含23个氨基酸残基。
该蛋白质促进细胞间的粘附。
该蛋白质在维持神经系统特定部分的健康中发挥关键作用。

只见提问后,Pro mode出现了一个“思考进度条”,大约53秒后模型给出了答案。

进一步点击回答最上面的小框框,就可以在侧边栏展开推理细节,里面详细记录了模型的思考步骤。

毕竟按照OpenAI的说法,o1(包括之前的preview版)在博士级科学问答上的表现是超过人类专家的。

不过有一说一,Pro版200美元一个月的价格也是让网友们挺震惊的。

至于到底值不值这个价格,可能要等先试水的用户用上一段时间之后的反馈了。

对了,团队这次也提到,后面将以API的形式为大家提供o1模型的一些功能,包括结构化输出、函数调用、图像API等。

BTW,活动结束前,奥特曼特意cue思维链作者讲了一个笑话。

圣诞老人想用大语言模型来解决数学问题,结果任何提示词都不管用,你知道最后是怎么成功的吗?

reindeer enforcement(应该是强化学习reinforcement,暗示拼写错误)

好冷……

模型更强,也更加安全了

o1满血版发布的同时,技术报告也在OpenAI官网上线。

这份报告当中,Ilya的名字依然位列基础贡献者(Foundational Contributor)之中。

在宣传页面当中,OpenAI公开展示了o1在数学、代码和博士级科学问答三类任务上的成绩。

在此基础之上,OpenAI还进行了更加严苛的测试,每个问题会询问四次,模型必须四次全答对才能得分

除此之外,技术报告还展示了o1的多语言能力

在包括中文在内的14种语言的MMLU测试中,o1的表现相比preview版均有程度不等的增强。

这里插播一句,面对这种带陷阱的弱智吧问题,满血版o1依然是被成功蒙骗(手动狗头)。

不过这份报告更多围绕着安全性展开讨论,内部及红队测试结果表明,整体上满血版o1在安全性与o1-preview接近。

如果和GPT-4o比,o1对有害内容的检测和拒绝能力也更强,并且在越狱测试中展现出更强的鲁棒性。

在现实风险上,OpenAI和红队针对网络安全、生化和核威胁等情景对o1进行了测试,结果同样与o1-preview接近。

另外,OpenAI对o1和o1-preview的思维链推理过程进行了欺骗性分析,通过让模型解释其行为背后的思考,了解模型是否有隐瞒信息、操纵数据的倾向。

结果,o1-preview在26%的案例中会故意隐瞒信息操纵数据,而o1的比例降到了19%。

Two More Things

在发布会开始之前,就已经有网友从ChatGPT的JS代码中发现了Pro版的蛛丝马迹。

其中,200美元的价格以及o1 pro模式,还有对满血o1的不限量访问,都和这次发布对得上。

另外,从这份JS代码中还能看到,在Team版本的相关位置,还出现了“GPT-4.5”

再顺便提一句,有网友让马斯克的Grok结合X上的推文预测了一下OpenAI都会发布些什么,其中第二条成功命中了此次发布的满血o1。

不知道接下来的11个发布日中,GPT-4.5是否会“如约而至”,Grok又能猜对多少个产品呢?

参考链接:
[1]https://openai.com/index/introducing-chatgpt-pro/
[2]https://x.com/theredwall__/status/1864677161535156358?s=46
[3]https://x.com/btibor91/status/1864709670470066605
技术报告:
https://cdn.openai.com/o1-system-card-20241205.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
精锐空降师抵中东,五万大军压境,美伊地面战一触即发?

精锐空降师抵中东,五万大军压境,美伊地面战一触即发?

高博新视野
2026-03-26 08:00:26
岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

仙味少女心
2026-03-24 16:47:29
国内航线燃油费4月5日上涨

国内航线燃油费4月5日上涨

21世纪经济报道
2026-03-26 19:23:14
7旬男子陪老伴住院,医生看了他一眼发现其面部有猝死先兆,将其从死亡边缘拉回

7旬男子陪老伴住院,医生看了他一眼发现其面部有猝死先兆,将其从死亡边缘拉回

观威海
2026-03-26 09:55:04
67岁大爷连闯红灯,遭三车连撞!视频拍下全程,老人多处骨折,家属:没想过讹人,但请各方担起应尽责任

67岁大爷连闯红灯,遭三车连撞!视频拍下全程,老人多处骨折,家属:没想过讹人,但请各方担起应尽责任

极目新闻
2026-03-27 00:18:26
举国之力也找不到完整夏朝,为何?网友的神预言正在被考古证实

举国之力也找不到完整夏朝,为何?网友的神预言正在被考古证实

超人强动物俱乐部
2026-03-26 16:54:48
美军最不愿看到的事发生:又一架战机被击中,仓皇往航母方向跑

美军最不愿看到的事发生:又一架战机被击中,仓皇往航母方向跑

阿龙聊军事
2026-03-26 20:32:20
歼20总师被除名军工脊梁,何以折戟名利场?

歼20总师被除名军工脊梁,何以折戟名利场?

荷兰豆爱健康
2026-03-25 07:50:12
FIFA系列赛新规:比赛需决出胜负 打平将互射点球

FIFA系列赛新规:比赛需决出胜负 打平将互射点球

体坛周报
2026-03-26 15:53:18
iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

柴狗夫斯基
2026-03-26 21:15:05
旧手机回收价狂涨五六倍!回收商:开不了机的照样高价收

旧手机回收价狂涨五六倍!回收商:开不了机的照样高价收

快科技
2026-03-25 14:53:24
2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

李喜林篮球绝杀
2026-03-26 17:04:26
美伊大战全球能源危机,中国却没释放石油储备,防以色列掀起核战

美伊大战全球能源危机,中国却没释放石油储备,防以色列掀起核战

胖福的小木屋
2026-03-26 23:26:21
扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

环球网资讯
2026-03-26 08:55:12
首进迈阿密决赛!高芙横扫13号种子,第6次跻身1000赛争冠战

首进迈阿密决赛!高芙横扫13号种子,第6次跻身1000赛争冠战

全景体育V
2026-03-27 06:20:10
我在西班牙呆了8年,说句可能不太好听的大实话,不要急着反驳我

我在西班牙呆了8年,说句可能不太好听的大实话,不要急着反驳我

世界圈
2026-03-19 13:02:46
曾因污言秽语被封禁的张雪峰,凭什么让郑大悼念,新华社发讣告?

曾因污言秽语被封禁的张雪峰,凭什么让郑大悼念,新华社发讣告?

观察者海风
2026-03-25 22:10:33
千万粉丝大V,微博账号被禁止关注

千万粉丝大V,微博账号被禁止关注

第一财经资讯
2026-03-26 12:19:47
彻底破防!张雪峰女儿留言,他们说天上的文曲星换届,选中了爸爸

彻底破防!张雪峰女儿留言,他们说天上的文曲星换届,选中了爸爸

火山詩话
2026-03-27 06:13:20
中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

信网
2026-03-26 19:12:37
2026-03-27 08:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176426关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普再表态:伊朗必须达成协议 否则将面临猛烈攻势

头条要闻

特朗普再表态:伊朗必须达成协议 否则将面临猛烈攻势

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
本地
数码
时尚
手机

教育要闻

健康第一理念下,校长管理的智慧:有所为,有所不为

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

数码要闻

8.8英寸天玑9500小钢炮!REDMI K Pad 2入网:下月见

400万人爱过的女孩,被黄谣网暴180天后

手机要闻

三星阔折叠渲染图曝光,Galaxy Z Fold 8宽屏版

无障碍浏览 进入关怀版