网易首页 > 网易号 > 正文 申请入驻

9.11和9.9哪个大?OpenAI刚官宣的GPT-4o mini竟然也翻车了

0
分享至


作者 | 月山橘‍‍

编辑 | 张洁

果然能革OpenAI命的,只有OpenAI自己。

今天凌晨,OpenAI突然官宣了新模型GPT-4o mini更小、更快、更强,价格却大跳水!直接取代GPT-3.5 Turbo作为ChatGPT入门级模型。


无论是免费还是付费用户,现在打开ChatGPT,你会发现GPT-3.5已经被GPT-4o mini全面取代。

在性能方面,GPT-4o mini支持128K token上下文窗口,支持与GPT-4o相同范围的语言,在多个关键基准测试中超越GPT-3.5 Turbo,以及同类型竞品Claude 3 Haiku和Gemini 1.5 Flash。


价格也是独一档的存在。GPT-4o mini商用价格为:15美分/每百万输入token,60美分/每百万输出token,比GPT-3.5 Turbo便宜60%以上,比GPT-4o便宜96%-97%。


目前,GPT-4o mini已面向ChatGPT免费、Plus和Team用户开放,企业用户将从下周开始获得访问权限。

OpenAI官方表示,希望通过该模型让更多公司和项目能够以更低成本构建和扩展AI应用

Sam Altman在X上称,智能技术成本正在变得几乎可以忽略不计。


OpenAI 产品API主管Olivier Godement则表示:“ 要想让世界的每一个角落都能被人工智能赋能,我们就必须让模型的价格更加亲民。我认为GPT-4o mini确实是朝着这个方向迈出的一大步。”


小模型中的战斗机

根据GPT-4o mini在多个关键基准测试中的得分,可以看出,其在文本和多模态推理、逻辑推理、数学和编程等方面均表现出色,优于市场上其他小型模型。

推理任务:在文本智能和推理基准MMLU中,GPT-4o mini的得分为82.0%,而Gemini Flash的得分为77.9%,Claude Haiku的得分为73.8%。在LMSYS排行榜的聊天方面,GPT-4o mini的得分甚至优于GPT-4。 数学和编码能力:在MGSM数学推理测试中,GPT-4o mini的得分为87.0%,而Gemini Flash的得分为75.5%,Claude Haiku的得分为71.7%。在HumanEval编程性能测试中,GPT-4o mini的得分为87.2%,而Gemini Flash的得分为71.5%,Claude Haiku的得分为75.9%。 多模态推理:在MMMU多模态推理评估中,GPT-4o mini的得分为59.4%,而Gemini Flash和Claude Haiku的得分分别为56.1%和50.2%。

目前,GPT-4o-mini在API(应用程序编程接口)中支持文本和视觉,未来将支持文本、图像、视频和音频输入和输出。

我分别让GPT-4o mini模仿刘慈欣《三体》的风格写一篇1500字的科幻故事,来感受一下这强烈的“推背感”


紧接着,我又问了一个最近难倒一众大模型(包括GPT-4o)的问题:9.11和9.9哪个大?

没想到,数学尖子生GPT-4o mini竟然也翻车了,我换了两种问法都没答对。


月之暗面曾在回应“Kimi认为9.11大于9.9”时称:“我们非常期待用户在使用中能够发现和报告更多的边界案例(Corner Case),不管是最近的‘9.9和9.11哪个大、13.8和13.11哪个大’,还是之前的‘strawberry有几个r’,这些边界案例的发现,有助于我们增加对大模型能力边界的了解。”

此外,在安全性方面,GPT-4o mini内置了与GPT-4o相同的安全措施。据悉,有70多名社会心理学和错误信息等领域的外部专家对GPT-4o进行了测试,以评估潜在风险,提高GPT-4o和GPT-4o mini的安全性。


性价比独一档

为了抢占市场份额,国内外大模型厂商“价格战”正酣。

但目前来看,GPT-4o mini的性价比堪称独一档的存在:


据Artificial Analysis统计,GPT-4o mini的价格已经达到美国主流AI“小模型”最低,比Claude 3 Haiku和Gemini 1.5 Flash都要便宜一截。

反观国内,近两个月,阿里、字节、腾讯等模型厂商相继推出新模型,并宣布降价甚至免费。

5月9日,阿里发布通义千问2.5,个人用户可从App、官网和小程序免费使用; 5月11日,智谱大模型官宣降价,入门级产品GLM-3 Turbo模型,百万Tokens调用价格从5元降至1元,降幅高达80%; 5月15日,字节发布豆包大模型,比行业平均价格便宜99.3%,推动大模型从“以分计价”,进入“以厘计价”阶段; 5月21日,阿里宣布9款大模型降价,百度宣布文心大模型两大主力模型ERNIE Speed、ERNIE Lite全面免费时代。 5月22日,科大讯飞宣布讯飞星火Lite API永久免费开放,腾讯云公布大模型升级方案,主力模型之一调整为免费。

随着AI技术的快速发展、算法的改进,模型训练和推理效率得到提升,大模型的成本有所降低,为降价提供了可能。

虽然蛋糕很大,但为了在激烈的市场竞争中抢占更多的市场份额,尤其是在大模型性能差异不大、能力对齐较快的情况下,价格战似乎是不可避免的。

通过降价吸引更多用户,通过降低API调用成本吸引更多开发者,可以形成规模效应,从而进一步摊薄训练和推理成本。此外,更多的用户使用数据,也有助于进一步优化和训练模型。

当然了,殊途同归,模型降本增效是一件普惠的事,有利于推动AI技术的普及和应用。但在降价的同时,模型厂商需要不断自我超越,才能确保可持续发展。在这一点上,可以说OpenAI起了个带头示范的作用。

「AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。

欢迎分享、点赞、在看

一起研究AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
当中国人车内悬挂美国国旗被质疑为间谍时,还谈什么改革开放?

当中国人车内悬挂美国国旗被质疑为间谍时,还谈什么改革开放?

李昕言温度空间
2024-09-02 17:23:16
再见蓝军!高层内讧升级,伯利或退出,新东家浮现,球迷:天亮了

再见蓝军!高层内讧升级,伯利或退出,新东家浮现,球迷:天亮了

策策聊个球
2024-09-07 23:41:30
迪奥活动这一天:躲过了穿长裙的陈梦,我却被张雨霏惊艳了

迪奥活动这一天:躲过了穿长裙的陈梦,我却被张雨霏惊艳了

喵喵娱乐团
2024-09-05 17:14:43
一通神秘电话助柯文哲度过危机,让他可以从容应对

一通神秘电话助柯文哲度过危机,让他可以从容应对

喜欢农家生活的阿律
2024-09-07 20:07:46
正式退出,郑钦文官宣,摊牌重大决定,网协批准,李娜祝福

正式退出,郑钦文官宣,摊牌重大决定,网协批准,李娜祝福

阿牛体育说
2024-09-07 23:13:19
重磅!财政部等六部门发文,叫停这些大基建项目!

重磅!财政部等六部门发文,叫停这些大基建项目!

房地产导刊
2024-09-07 17:30:58
北京中轴线地铁2号线专列正式上线

北京中轴线地铁2号线专列正式上线

北京商报
2024-09-07 18:00:18
多名立陶宛公民被确认为俄罗斯战斗,立防长:属于针对国家的敌对行为

多名立陶宛公民被确认为俄罗斯战斗,立防长:属于针对国家的敌对行为

红星新闻
2024-09-06 12:49:25
王润秋老师去哪里了?

王润秋老师去哪里了?

三峡人家
2024-09-06 17:11:57
世预赛南美积分榜:巴西结束3连败升至第4,阿根廷4分领跑

世预赛南美积分榜:巴西结束3连败升至第4,阿根廷4分领跑

直播吧
2024-09-07 11:04:33
万万没想到,35岁杨颖兜兜转转干回“老本行”,活成内娱最大笑话

万万没想到,35岁杨颖兜兜转转干回“老本行”,活成内娱最大笑话

司妮说娱
2024-09-08 07:00:08
294票赞成,乌议会通过法案,绕开中企采购无人机,中国反将一军

294票赞成,乌议会通过法案,绕开中企采购无人机,中国反将一军

小盖纪实
2024-09-06 10:01:15
2024年起,中国或将迎四大降价潮?除房价外,这些也准备降价了?

2024年起,中国或将迎四大降价潮?除房价外,这些也准备降价了?

蜉蝣说
2024-09-06 20:21:43
每体:安切洛蒂收到沙特球队5000万欧年薪报价,他有些动心

每体:安切洛蒂收到沙特球队5000万欧年薪报价,他有些动心

懂球帝
2024-09-07 20:08:16
郑刚再发文回应罗永浩:D轮近十亿元融资花在哪了?

郑刚再发文回应罗永浩:D轮近十亿元融资花在哪了?

鞭牛士
2024-09-07 12:19:07
10年7亿合同值了!大谷翔平成为MLB史上首位45轰+45盗垒球员

10年7亿合同值了!大谷翔平成为MLB史上首位45轰+45盗垒球员

直播吧
2024-09-07 12:41:21
今年被抛弃的5所211大学,录取分数跌破550分,真是“白菜价”

今年被抛弃的5所211大学,录取分数跌破550分,真是“白菜价”

朗威谈星座
2024-09-07 17:47:23
教师节送什么礼物不会转身就忘了?网友分享五花八门,送到心坎里了

教师节送什么礼物不会转身就忘了?网友分享五花八门,送到心坎里了

有趣的火烈鸟
2024-09-08 00:11:52
女子在家长群疯狂刷屏+泼妇骂街,圈出儿子照片叫嚣“欺负他认准点”

女子在家长群疯狂刷屏+泼妇骂街,圈出儿子照片叫嚣“欺负他认准点”

可达鸭面面观
2024-09-06 09:46:23
当年说出“不是你撞的,干嘛去扶”的法官,18年后,他过得怎样?

当年说出“不是你撞的,干嘛去扶”的法官,18年后,他过得怎样?

大佬日志
2024-03-26 08:00:10
2024-09-08 08:54:46
头号AI玩家
头号AI玩家
做内容从业者关心的AI研究
94文章数 6关注度
往期回顾 全部

科技要闻

苹果发布会终极前瞻 会见到哪些更新?

头条要闻

女子拍得2套法拍房 物业拒不办入住:你拿的房产证没用

头条要闻

女子拍得2套法拍房 物业拒不办入住:你拿的房产证没用

体育要闻

24岁的锡安,正在和世界和解

娱乐要闻

37岁刘诗诗被吐槽脸越来越僵

财经要闻

针对光刻机等设备 荷兰还是下手了

汽车要闻

轴距2900mm smart精灵#5将于9月20日预售

态度原创

艺术
本地
家居
时尚
公开课

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

本地新闻

乘风破浪 向阳而歌 一起相约天子湖

家居要闻

苏式园林 高级原木质感

今年秋天,穿得越放松越时髦!

公开课

简单的血液测试就能检测出癌症吗?

无障碍浏览 进入关怀版