网易首页

无障碍浏览进入关怀版

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

奥特曼率队深夜血战DeepSeek，o3-mini急上线！价格骨折免费用，ChatGPT被挤爆

2025-02-01 06:03:46　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：编辑部 HYZ

【新智元导读】眼看DeepSeek风头尽显，被逼急的OpenAI果然紧急发布了o3-mni。不光免费用户都能用，每百万输入和输出token价格更是疯狂跳水打骨折价！

o3-mini，真的来了。

刚刚，OpenAI官宣o3-mini和o3-mini-high两大版本正式在ChatGPT上线。

诚如奥特曼所言，免费用户直接打开「Reason」即可体验，Plus用户每天会有更多用量，具体来说：

- ChatGPT免费版：首次体验推理模型

- ChatGPT Plus和团队版：每天150次对话限制

- ChatGPT Pro：无限制访问

- ChatGPT Enterprise和ChatGPT Edu：将在一周内可用

- API：向3-5级开发者开放（初期暂不支持图像分析功能）

- 输入1.10美元/百万token、输出4.40美元/百万token

感谢DeepSeek，o3-mini的价格这次算是彻底给打下来了——比OpenAI o1-mini便宜63%，比满血版o1便宜93%。（但仍是GPT-4o mini的7倍左右）

订阅用户已经在第一时间「告别」了o1-mini，还没来得及说再见

OpenAI表示，o3-mini的发布是在追求高效能智能技术道路上的又一重要里程碑。

通过优化科学（Science）、技术（Technology）、工程（Engineering）和数学（Mathematics）领域的推理能力，同时保持较低的成本，让高质量AI技术变得更加平易近人。

值得一提的是，在ChatGPT中，o3-mini采用的是「中等推理强度」，在速度和准确性之间取得平衡。所有付费用户还可以在模型选择器中选择o3-mini-high——响应时间略长但智能水平更高的版本。

目前，由于太过火爆，ChatGPT的项目和自定义GPTs功能都已经被挤崩了。

集成搜索，两种版本可选

去年12月，。相较于上一代o1模型，o3在ARC-AGI等多项基准测试中刷新SOTA。

与o1-mini一样，o3-mini是最具性价比的推理模型，可谓是突破性能边界的「小巨人」。

在STEM领域，尤其是科学、数学和编程等方面，o3-mini性能表现卓越超越o1，并继承了上一代低成本和低延迟的优点。

对于开发者来说，o3-mini简直就是一份「大礼包」，它首次在小型推理模型中支持：包括函数调用、结构化输出和开发者消息、流式传输功能。

开发者可以根据需求选择低、中、高三种推理强度，让o3-mini在处理复杂问题时进行「深度思考」，灵活平衡速度和准确性。

遗憾地是，o3-mini暂不支持视觉功能。

如前所述，从今天起，o3-mini将通过Chat Completions API，Assistants API和Batch API向3-5级指定开发者开放。

同时，o3-mini还整合了搜索功能，能够提供带有相关网络来源链接最新响应。

一起来看看这款「小而美」的o3-mini有什么过人之处。

快速、强大、专为STEM领域推理优化

与其前身OpenAI o1类似，OpenAI o3-mini专门针对STEM推理进行了优化。

采用了中等推理强度的o3-mini，在数学、编程和科学领域的表现与o1不相上下，且响应速度更快。

报告地址：https://cdn.openai.com/o3-mini-system-card.pdf

专家测试评估显示，o3-mini相比o1-mini能够生成更准确、更清晰的答案，推理能力更强。

在测试中，o3-mini的响应结果获得了56%的偏好度，在处理复杂现实问题时的重大错误率更是降低了39%。

在中等推理强度设置下，o3-mini在最具挑战性的推理和智能评估项目（包括AIME和GPQA）中，均达到了与o1相当的水平。

数学竞赛（AIME 2024）

在低推理强度下，o3-mini达到了与o1-mini相当的水平；在中等推理强度下，其表现可与o1媲美；而在高推理强度下，o3-mini的表现更是超越了o1-mini和o1。

博士级科学问题（GPQA Diamond）

研究级数学（FrontierMath）

在高推理强度模式下，o3-mini在FrontierMath中的表现优于前代产品。当配合Python工具使用时，高推理强度的o3-mini能够一次性解决超过32%的测试题目，其中包括28%以上的T3级问题。

编程竞赛（Codeforces）

随着推理强度的提升，OpenAI o3-mini的Elo得分不断提高，各层级表现均优于o1-mini。在中等推理强度下，其表现已能与o1相媲美。

软件工程（SWE-bench Verified）

o3-mini在高推理强度模式下，使用开源Agentless框架能达到39%的成功率，使用内部工具框架则可达到61%的成功率。

LiveBench编码

人类偏好评估

外部专家评测结果显示，o3-mini较o1-mini表现出更强的推理能力，能够生成更准确、更清晰的答案，尤其是在STEM领域中。在对比测试中，o3-mini获得了56%的用户偏好度，且在处理复杂现实问题时的重大错误率降低了39%。

在技术报告中，o3-mini编程性能超越了GPT-4o和o1-preview，与o1不相上下。

模型的速度与性能

o3-mini在保持与o1相当智能水平的同时，实现了更快的运行速度和更高的计算效率。

除前文提到的STEM评估外，在中等推理强度下，o3-mini在其他数学能力和事实准确性测试中均取得了显著优势。

对比测试（A/B Testing）结果显示，o3-mini的平均响应时间为7.7秒，较o1-mini的10.16秒提升了24%。

o1-mini和o3-mini（medium）的延迟对比

安全评估

OpenAI在训练o3-mini确保其安全响应，采用的关键技术之一是审慎对齐（deliberative alignment）。

这项技术使模型能够在响应用户提示词前，对人工制定的安全规范进行全面推理。

与o1相似，o3-mini在高难度安全性测试和越狱评估中，明显优于GPT-4o。

在正式部署前，研究人员采用与o1相同的准备方法，结合外部红队测试和安全性评估，对o3-mini的安全风险进行了全面评估。

禁止内容评估

越狱评估

OpenAI急了

去年年底放出o3和o3-mini的预览时，CEO奥特曼就曾表示，o3-mini将会在1月份发布。

随后，奥特曼又在1月17日预告称，o3-mini会在几周内发布。

现在，o3-mini果然如约而至（卡在ddl最后一天），但外面的世界已经是天差地别。

面对正在快速崛起的DeepSeek-R1，o3-mini存在着一个关键问题——「不开源」。

这也就意味着，它无法离线使用、无法下载代码，也无法以相同的程度进行自定义。对于很多应用过来说，它的吸引力相对于R1明显大打折扣。

在上下文窗口方面，DeepSeek-R1约为128K/130K token，而o3-mini略胜一筹达到了200K token。其中，每个输出最多100K token，跟满血版o1相同。

在价格方面，相比于输入/输出token分别为0.14/0.55美元的DeepSeek-R1，o3-mini依然贵出了天际。

但作为一款美国模型，o3-mini在身份上无疑占尽了好处：应该会是欧美很多企业的首选。

奥特曼亲自率队

这一次，最强最新的o3-mini模型训练，奥特曼本尊下场亲自率队。研究项目主管分别是Carpus Chang和Kristen Ying。

接下来，如果说OpenAI还藏在什么杀手锏，那就是满血版的o3了。根据12月时的说法，它将在「此后不久」发布。

参考资料：

https://openai.com/index/openai-o3-mini/

https://openai.com/index/o3-mini-system-card/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

普特南数赛公布，MIT创5连冠神话！3位00后华人称霸TOP 5

返回网易首页下载网易新闻客户端

相关推荐

热点推荐

社交应用收入排名超ChatGPT，“出道晚增长快”的产品如何靠短剧崛起

钛媒体APP 2024-12-21 08:23:12
0 跟贴 0
全面增强LLM推理/规划/执行力！北航提出全新「内置CoT」思考方法

新智元 2025-03-04 14:50:46
0 跟贴 0

河南性奴案：男子把地窖变后宫，6女遭虐待强奸，还为他争宠

午夜故事会 2023-05-25 14:47:08

DeepSeek下棋靠忽悠赢了ChatGPT，网友：孙子兵法都用上了

量子位 2025-02-08 13:29:19
4961 跟贴 4961

商业大佬发家史：那些改变行业、改变世界的人

专栏蓝钻故事

人刚毕业，代码一点不会，他纯靠ChatGPT写APP，年入千万美金

机器之心Pro 2025-02-24 16:38:16
966 跟贴 966
多元推理刷新人类最后考试记录,o3-mini(high)准确率飙升到37％

机器之心Pro 2025-03-03 21:34:28
2 跟贴 2

死刑犯的最后人生

专栏网易人间

NP难问题接近被AI破解！南航牛津爆改DeepSeek-R1推理，碾压人类27年研究

新智元 2025-03-04 13:18:46
28 跟贴 28

男友陪白月光产检时，我却独自去做人流？

夭夭爱写文 2023-04-13 15:29:01

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

机器之心Pro 2025-03-04 16:23:43
3 跟贴 3
ChatGPT拒绝谈论这个人，没人知道为什么

量子位 2024-12-02 13:07:36
906 跟贴 906

当我拖着疲惫的身子回到家中，却发现妻子竟然背叛了我！

鼎甜娱乐 2023-03-28 09:50:39

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

量子位 2024-12-02 19:33:09
173 跟贴 173
国外小哥毕业后靠ChatGPT自学编程，年入千万

量子位 2025-02-25 12:19:16
0 跟贴 0
我的推理没问题吧

豆哥记录 2025-03-04 00:00:00
0 跟贴 0
被郑号锡迷住了现场好high

上海全娱乐001 2025-02-28 22:01:57
0 跟贴 0
这推理简直无敌

华仔追剧 2025-03-04 08:49:29
2 跟贴 2

DeepSeek前实习生魔改MoE，用迭代机制把内存需求砍了42%

量子位 2025-03-04 15:38:32
4 跟贴 4
千里科技印奇：AI与车深度融合决定未来十年发展格局，汽车的ChatGPT时刻将临

澎湃新闻 2025-03-03 23:19:06
2 跟贴 2
美国六代机停滞不前，帅化民：七代机模型都出来了

金日事 2025-03-04 23:32:54
0 跟贴 0
王毅与澳外长会晤达成合作，没想到澳方马上对DeepSeek封禁

麓谷隐士 2025-03-05 00:10:46
0 跟贴 0
悄悄把媳妇手机换成模型，然后假装生气摔媳妇手机，最后媳妇发飙

野外露营分享者 2025-03-03 13:18:14
0 跟贴 0

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40
0 跟贴 0
俄乌前线激烈拼杀，美国断援釜底抽薪，欧洲紧急行动

史政先锋 2025-03-04 13:47:33
7315 跟贴 7315
中端小屏神机？vivo S21 mini曝光，影像对标旗舰！

雷科技 2025-03-04 22:30:43
26 跟贴 26
帅化民：大陆很坏啊，把七代机的模型也拿出来，你美国跟不跟？

龙悦军急送 2025-03-02 12:56:28
51 跟贴 51
2020年象甲许银川老谱新变暴力破解急进中兵，攻杀激烈堪比软件

农人敏儿 2025-03-04 15:22:43
1 跟贴 1

本科学历但创造出GPT，奥特曼盛赞为「爱因斯坦级」天才

量子位 2025-01-01 14:17:10
0 跟贴 0
LGD将向索尼本田供应40英寸Mini LED车载屏

LEDinside 2025-03-03 18:49:11
0 跟贴 0
神州数码：公司神州鲲泰问学一体机DeepSeek版可以实现开箱即用

每日经济新闻 2025-03-05 00:38:07
0 跟贴 0
王天一第一次被打到怀疑人生！许银川大秀怪招，连软件都解不开

搞笑的晓枫 2025-03-04 10:28:56
1 跟贴 1
五菱宏光MINI EV四门版登陆南京大空间+205KM续航

车市漫谈 2025-03-04 23:52:58
0 跟贴 0

拿捏洋抖难民/DeepSeek/哪吒2，拿捏复试

秃头研究所新传考研 2025-03-04 23:55:01
3 跟贴 3
统一的多模态大模型将理解、感知、推理整个世界

量子位 2024-12-23 13:09:38
0 跟贴 0
初中老师用deepseek制作收作业软件

江西都市现场 2025-03-03 17:42:55
0 跟贴 0
MINI推迟明年在英国生产电动汽车的计划

智生活杂志 2025-03-03 12:50:09
1 跟贴 1
还挺准？DeepSeek昨日成功预测皇马2-1马竞

直播吧 2025-03-05 07:15:22
0 跟贴 0
丑车牌忍够了！雷军打算对新能源号牌出手，你支持吗？

泡泡网 2025-03-04 11:11:23
3545 跟贴 3545
乐高忍者城攻占钱包，帕恰狗盲盒萌到中风，奥特曼竟能合体成高达

酷玩潮CHAO 2025-03-03 09:47:51
1 跟贴 1
你觉得这个推理有漏洞吗

咸鱼梦想侠 2025-03-03 14:38:57
1 跟贴 1
古人“夜观天象”有多厉害？2000多年前，就记下了最早的彗星图像

文物真有趣 2025-03-01 10:07:04
0 跟贴 0
《神逻辑》：揪出逻辑漏洞，助你见招拆招！

小幽爱读书 2025-03-03 22:14:30
0 跟贴 0
形势有多严峻？41岁男子投简历找工作被HR狠狠diss

慧翔百科 2025-03-04 11:47:21
2290 跟贴 2290
实测字节免费AI编程，还让不让Cursor活了

量子位 2025-03-04 13:01:22
21 跟贴 21

美暂停对乌军援后，澳大利亚总理：澳方“愿意考虑”向乌克兰派遣维和部队

美暂停对乌军援后，澳大利亚总理：澳方“愿意考虑”向乌克兰派遣维和部队

环球网资讯

2025-03-04 19:01:09

曼联高层做出重大转会决定，对阿莫林造成巨大打击

曼联高层做出重大转会决定，对阿莫林造成巨大打击

夜白侃球

2025-03-04 22:51:48

这不抢风头吗！河南一伴娘把礼服穿成抹胸裙：新郎都有些不好意思

这不抢风头吗！河南一伴娘把礼服穿成抹胸裙：新郎都有些不好意思

唐小糖说情感

2025-02-19 15:46:20

树挪死人挪活！换队后5位重新证明自己的球员：拉文溢价打成超值

树挪死人挪活！换队后5位重新证明自己的球员：拉文溢价打成超值

你的篮球频道

2025-03-04 15:30:03

你所知道的KTV到底有多乱？网友：你在包房里发现什么都不稀奇！

你所知道的KTV到底有多乱？网友：你在包房里发现什么都不稀奇！

美好客栈大掌柜

2025-03-03 00:05:13

鸿蒙智行：某公司操纵上万个账号诋毁品牌多人被批捕

鸿蒙智行：某公司操纵上万个账号诋毁品牌多人被批捕

手机中国

2025-03-04 17:55:04

14年前，那个当着全世界喝下核污染水的日本官员，如今还活着吗？

14年前，那个当着全世界喝下核污染水的日本官员，如今还活着吗？

王晓爱体彩

2025-03-02 13:53:00

四川7名县级党委书记添新职

金台资讯

2025-03-04 14:35:12

独显再无用武之地！曝AMD下代APU游戏性能媲美RTX 5070 Ti

独显再无用武之地！曝AMD下代APU游戏性能媲美RTX 5070 Ti

快科技

2025-03-04 11:24:33

俄专家：若美停止援乌，欧洲无力补台

俄专家：若美停止援乌，欧洲无力补台

参考消息

2025-03-04 12:49:07

佟丽娅带儿子现身陈思诚公司，穿百褶裙搭配长筒靴，明星范十足！

佟丽娅带儿子现身陈思诚公司，穿百褶裙搭配长筒靴，明星范十足！

西瓜爱娱娱

2025-03-04 14:35:35

春节过后，财运大爆发的三个星座，横财滚滚，富贵临门

春节过后，财运大爆发的三个星座，横财滚滚，富贵临门

小晴星座说

2025-03-04 19:25:12

故事：男按摩师亲述：多数女客户需要的不只是按摩，更重要的是我

故事：男按摩师亲述：多数女客户需要的不只是按摩，更重要的是我

红豆讲堂

2025-02-24 21:00:11

国安官员顶风作案，怒喷申花麦麦提江——“公众场合展示PY交易”

国安官员顶风作案，怒喷申花麦麦提江——“公众场合展示PY交易”

中国足球的那些事儿

2025-03-04 09:30:07

看到邹市明赔到掉裤子，我突然发现他们一家特别可笑！

看到邹市明赔到掉裤子，我突然发现他们一家特别可笑！

一桶浆糊要一统江湖

2025-03-04 14:40:03

Deepseek居然算出了Lv的生产成本，感叹奢侈品的暴利！

Deepseek居然算出了Lv的生产成本，感叹奢侈品的暴利！

观察鉴娱

2025-03-04 10:29:51

永远不要跟认知不同的人沟通：认知的9个层次，你在哪一层？

永远不要跟认知不同的人沟通：认知的9个层次，你在哪一层？

尚曦读史

2025-03-04 06:01:10

又轰下51+7+5，他这样打下去，约基奇的MVP悬了

又轰下51+7+5，他这样打下去，约基奇的MVP悬了

篮球大视野

2025-03-04 16:43:29

潘伟力：奥斯卡入籍缺少一些材料，因为民主刚果现在处于动荡之中

潘伟力：奥斯卡入籍缺少一些材料，因为民主刚果现在处于动荡之中

直播吧

2025-03-04 18:07:12

人憎人嫌，把路走绝了！为何罗兴亚人成为世界上最不受欢迎的族群

人憎人嫌，把路走绝了！为何罗兴亚人成为世界上最不受欢迎的族群

文龙笔记

2025-03-04 19:47:00

AI产业主平台领航智能+时代

12282文章数 65937关注度

往期回顾全部

普特南数赛公布，MIT创5连冠神话！3位00后华人称霸TOP 5
2025-03-04 18:14
GPT-4.5智商测试94，登上LLM竞技场榜首！网友质疑黑幕，实测结果惊人
2025-03-04 16:18
全面增强LLM推理/规划/执行力！北航提出全新「内置CoT」思考方法
2025-03-04 14:50

科技要闻

"马部长"涉政大刀阔斧特斯拉市值暴跌三成

头条要闻

媒体："一小时抵达全球" 美军开始准备动手了

体育要闻

老对手之间的PK：洛城德比&骑士绿军

娱乐要闻

王大陆派人殴打司机被捕！下手凶残

财经要闻

重磅！中方发布多项对美反制措施

汽车要闻

每27秒一辆奇瑞出海!奇瑞瑞虎5x第100万辆出口达成

态度原创

手机

时尚

本地

数码

游戏

手机要闻

苹果+华为份额高达84%，小米、vivo等瓜分16%

早春第一双鞋！求你买这几双，太好看了吧

本地新闻

春色满城关不住｜春日列车穿梭花海，来渝中与春天“撞”个满怀

数码要闻

苹果正式结束64GB储存时代所有iPhone/iPad 128GB起

《艾尔登法环》手游要来？宫崎英高现身腾讯大楼

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉 Reporting Infringements