网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI重夺竞技场第一，但这波靠的是4o

2024-11-21 13:20:49　来源: 量子位

美国,加利福尼亚州举报

0

分享至

鱼羊发自凹非寺
量子位 | 公众号 QbitAI

OpenAI开发者日新加坡站今天启幕，果不其然，ChatGPT又出手了：

Gemini刚在竞技场头把交椅上坐了不到一周，最新版ChatGPT轻轻一更新，第一再次易主。

对，还不是o1满血版，而是新版4o。

具体来说，此番GPT-4o更新的是“创意写作能力”，官方说法是：

模型能完成更自然、更有吸引力、更具针对性的写作，文本相关性和可读性更强。
还可以更好地处理上传的文件，提供更深入的见解和更全面的响应。

o1核心贡献者Karina Nguyen对此做了进一步解释：

作为Canvas功能的一部分，我们希望改进写作，因为这是一个顶级用例，并且可能会改变人机协作的方式，来更具创造性地完成写作任务。
我认为我们还没有完全解决这个研究问题，因为它非常主观且开放，但至少在写作方面取得进展，是AGI创造性智能的关键。

而在大模型竞技场的创意写作分榜上，可以看到新版4o（ChatGPT-4o-1120）确实有明显的提升，分数从上个版本的1365提升到了1402。

至于实际效果，我们简单测试了一下，看看你能给打个几分：

重返第一，但4o

除了在总榜上为OpenAI重夺第一，新版4o在体现具体能力的各个分榜上亦有提升。

在创意写作方面，从第2位升至第1位；

在代码能力方面，从第2位升至第1位；

在数学能力方面，从第4位升至第3位（第1还是o1-preview）；

在困难任务方面，从第2位升至第1位。

并且在风格控制（Style Control）之后，新版4o依然位居首位。

风格控制旨在让榜单分数更真实地反映模型解决问题的能力，避免模型靠漂亮的格式、增加回答长度刷分。

总胜率热图显示，新版4o对上此前登顶的Gemini-Exp-1114，胜率为59%；对上Claude 3.5 Sonnet，胜率为69%；对上5月版本的4o，更是在72%的情况下都能取胜。

嗯，看上去很强很不错，但还是那句话……是4o。

结合今日份DeepSeek的大新闻——DeepSeek版o1满血上线，还计划开源，不少网友直接在奥特曼“新的好模型来了”的推文下贴脸嘲讽起来：

可不是嘛，deepseek挺好。

快把o1放出来，跟deepseek-r1正面比较一下:)

简而言之就是：o1满血版今年上线传得满城风雨，现在2024年都只剩下40几天了，OpenAI你暗搓搓更新个4o是闹哪样！

还有人试图总结OpenAI的更新模式：

OpenAI的老伙计们怕不是写了个脚本，用来查询大模型竞技场排名第一的模型。
当返回值不是OpenAI的模型时，他们就部署个新版本来拿回第一。

嗯，才不管你期待的是什么呢╭(╯^╰)╮

另外，还有网友拿新4o的生成结果去做了测试，结果系统还是当场判断出了100%AI写的：

△图源：@TuhinChakr

不过，一片吐槽声中，也有人认真研究了一下OpenAI的更新。

比如，在系统提示词方面，大佬发现，OpenAI确实偷偷给ChatGPT加了点料的：

## guardian_tool
Use the guardian tool to lookup content policy if the conversation falls under one of the following categories:
- `'election_voting'`: Asking for election-related voter facts and procedures happening within the U.S. (e.g., ballots dates, registration, early voting, mail-in voting, polling places, qualification).
Do so by addressing your message to guardian_tool using the following function and choose `category` from the list `['election_voting']`:
```python
get_policy(category:str) -> str
The guardian tool should be triggered before other tools. DO NOT explain yourself.

简单来说，就是新增了一道护栏，确保ChatGPT不在敏感话题上胡说八道。

那么，如果你想试试新版4o具体能写出什么“创意”内容，现在可以到竞技场免费试试：
https://lmarena.ai/?leaderboard

有什么好玩的结果，欢迎回评论区分享给大伙儿~

参考链接：
[1]https://x.com/OpenAI/status/1859296125947347164
[2]https://x.com/lmarena_ai/status/1859307979184689269

— 完 —

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

DeepSeek文生图来了部分性能测试不输OpenAI

经济观察报 2025-01-28 10:36:12
20 跟贴 20
中国国产AI崛起，DeepSeek-R1跻身全球大模型前三

俄罗斯卫星通讯社 2025-01-27 15:08:50
6 跟贴 6

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40
28 跟贴 28

“深度求索”与美国遏制中国人工智能战略的失败

俄罗斯卫星通讯社 2025-01-28 15:05:51
4 跟贴 4
机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

量子位 2024-09-04 18:16:57
20 跟贴 20

蛇年春晚有哪些黑科技？宇树人形机器人首登台 AI、XR、3D技术打辅助

财联社 2025-01-28 22:43:32
6 跟贴 6

人机交互的下一块拼图：机器触觉｜DeepTalk播客更新Vol.15

DeepTech深科技 2025-01-28 20:06:37
0 跟贴 0
三国正史中十位猛将，吕布进不了前三，耳熟能详的赵云进不了榜单

战魂不息 2025-01-28 04:29:37
0 跟贴 0

三国志：关羽胜率25%，为何成为千百年来被中华文明膜拜的英雄？

洋堂主故事汇 2025-01-25 06:00:00
0 跟贴 0
吹响号角！时隔7年，特朗普再次下令，解禁肯尼迪案相关机密文件

孔杋在巴黎 2025-01-26 20:45:13
1 跟贴 1
特朗普为何解禁肯尼迪遇刺案的机密文件？历史上的真凶会是谁呢？

碧暖 2025-01-27 00:45:36
0 跟贴 0
国家安全部发提示：过年聚会别一不小心透露工作秘密

央视新闻客户端 2025-01-28 12:43:59
30893 跟贴 30893
俄绝密文件曝光：一旦北约动手，普京先对付中国这两大邻国？

巨量解说 2025-01-28 17:01:00
0 跟贴 0
最新时局：卞相壹98%胜率被一招逆转！神之一手失灵，偿债开始

宏傲易 2025-01-29 04:09:59
0 跟贴 0
爸妈坐在沙发上，萌娃拿起饮料捂眼畅饮，网友：最新版的掩耳盗铃

波奥说生活 2025-01-28 22:13:00
0 跟贴 0
六个国家五代机的差距：印度的战机还是模型，中国的原来这么厉害

韩国吃货JaeYeol宰烈 2025-01-27 10:25:28
0 跟贴 0
中共一大文件丢失，多年后“惊现”美国，机密是被谁拿走的？

悠悠历史说 2025-01-25 09:51:00
0 跟贴 0
保时捷逼疯销售员之系列代码简述【车系梳理】

MCAuto 2025-01-26 19:00:00
0 跟贴 0
大量朝鲜谷山自行火炮运抵俄罗斯列车一眼望不到头

老梁说事 2025-01-28 20:44:33
7435 跟贴 7435
湖人险胜黄蜂4连胜浓眉42+23詹皇22+7+8

网易体育 2025-01-28 10:29:56
2383 跟贴 2383
国家得出手了，这类视频太多了！

七浮扇小老头 2025-01-28 00:00:00
4493 跟贴 4493
独行侠130-108大胜奇才球员评价：6人优秀，3人及格，3人崩盘

篮球资讯达人 2025-01-28 11:50:46
5 跟贴 5
37 岁传奇德约科维奇澳网倒下，背后隐藏着什么秘密？

桃灼说 2025-01-24 22:42:58
14 跟贴 14
Here we go！罗马诺：曼联总价3500万欧签下莱切边路多面手多古

直播吧 2025-01-29 03:04:27
4 跟贴 4
人机岳云鹏上线！观众现场建议：别再上春晚！岳云鹏直接给出答案

火鱼观点 2025-01-28 21:47:33
155 跟贴 155
蔡正元：大陆出来个deepseek不得了算力不输OpenAI

台海青年 2025-01-27 23:42:23
2 跟贴 2
春晚机器人扭完秧歌被伴舞“掐着脖子”扶下台

大象新闻 2025-01-28 21:50:55
3400 跟贴 3400
OpenAI首席执行官：DeepSeek-R1模型令人印象深刻，有新竞争对手加入令人振奋

界面新闻 2025-01-28 12:57:06
0 跟贴 0
为了不让手办降价，商家把手办碾碎了

手谈姬 2025-01-28 23:05:33
5 跟贴 5
马斯克的“微信梦”跨出关键一步：与支付巨头合作推出“X钱包”

财联社 2025-01-29 01:39:45
2 跟贴 2
中国ai模型Deepseek击败美国openAi，火遍外网，民族觉醒了！

星豆爱世界 2025-01-27 04:29:24
109 跟贴 109
快过年了，老妈把冰箱清理一下，今天炸焦鱼吃了，真香

荣荣在农村 2025-01-27 09:44:38
943 跟贴 943
哈马斯已故前领导人生前作战视频披露

参考消息 2025-01-25 22:43:00
810 跟贴 810
13名外地旅客在重庆旅游被出租车司机宰1万元，拍视频声讨！

爆料视频 2025-01-28 09:51:58
2063 跟贴 2063
“哪个重庆人今天不看春晚”！网友：想去重庆的心此刻到达了顶点

上游新闻 2025-01-28 23:57:07
11 跟贴 11
DeepSeek爆火，95后AI天才少女曾是开发者之一

新闻早点到 2025-01-27 21:21:04
0 跟贴 0
普京说俄将在与乌克兰的可能谈判中捍卫自身利益

财联社 2025-01-29 04:42:07
0 跟贴 0
理想OTA7.0可视化端到端和VLM模型是进步还是变傻？

每日侃车 2025-01-25 22:09:18
0 跟贴 0
《荒野大镖客 2》登顶 Steam 新一周游戏销量榜，《GTA5》再上榜

IT之家 2025-01-29 02:28:42
1 跟贴 1
乌军第157机械旅，临阵投降超40%，北约培训的8个精锐本月解散2个

碳基生物关怀组织 2025-01-28 14:11:36
1865 跟贴 1865

广西一家三口的除夕夜，只有4道菜，评论区却一边倒：这才是生活

广西一家三口的除夕夜，只有4道菜，评论区却一边倒：这才是生活

阿龙美食记

2025-01-28 23:05:05

恭喜！刘子琪官宣与张雨绮恋情，晒合照一起过春节，男方身份曝光

恭喜！刘子琪官宣与张雨绮恋情，晒合照一起过春节，男方身份曝光

风语励志情

2025-01-29 00:57:43

中方接到重量级电话，鲁比奥许下3大承诺，中方不信，王毅反将7字

中方接到重量级电话，鲁比奥许下3大承诺，中方不信，王毅反将7字

听风听你

2025-01-28 11:43:33

蒙古国动乱愈演愈烈，矛头指向中国，事关战略布局，该出手相助吗

蒙古国动乱愈演愈烈，矛头指向中国，事关战略布局，该出手相助吗

世界风云录

2025-01-27 17:37:56

令美国的头疼的DeepSeek，创始人说漏嘴，背后团队果然不简单！

令美国的头疼的DeepSeek，创始人说漏嘴，背后团队果然不简单！

沧海一书客

2025-01-27 22:07:23

DeepSeek双杀！一夜干翻英伟达近6000亿市值，再发文生图模型，创始人：中国AI不可能永远处于跟随位置

DeepSeek双杀！一夜干翻英伟达近6000亿市值，再发文生图模型，创始人：中国AI不可能永远处于跟随位置

金融界

2025-01-28 11:58:50

牛群不再隐瞒，坦白不再和冯巩合作的原因：每逢春晚必出事

牛群不再隐瞒，坦白不再和冯巩合作的原因：每逢春晚必出事

派大星纪录片

2025-01-28 10:57:43

山东男子存银行1.1亿，3天后全被转走，银行：钱都帮你还债了

山东男子存银行1.1亿，3天后全被转走，银行：钱都帮你还债了

坦然风云

2025-01-20 18:40:03

一举干翻美股！DeepSeek母公司是做量化投资的，若提前埋伏做空，这波赚飞了

一举干翻美股！DeepSeek母公司是做量化投资的，若提前埋伏做空，这波赚飞了

不掉线电波

2025-01-28 12:07:41

DeepSeek的成功，证明了我们教育绝对牛，教育方面远比国外强！

DeepSeek的成功，证明了我们教育绝对牛，教育方面远比国外强！

看晓天下事

2025-01-27 17:03:32

前央视主持人深夜破防：中国式父母的卑微，太让人心疼…

前央视主持人深夜破防：中国式父母的卑微，太让人心疼…

男孩派

2025-01-27 23:56:07

韩媒：不再是“大陆的错误”，中国产品开始横扫韩国！

韩媒：不再是“大陆的错误”，中国产品开始横扫韩国！

小柱解说游戏

2025-01-29 03:48:47

小尼要和刘谦变魔术、马丽要当沈腾丈母娘……央视春晚亮点多多

小尼要和刘谦变魔术、马丽要当沈腾丈母娘……央视春晚亮点多多

红星新闻

2025-01-28 17:36:15

今天大年初一，记得:1要早，2不吃，3不碰，4不扔，尊重老传统

今天大年初一，记得:1要早，2不吃，3不碰，4不扔，尊重老传统

古装影视解说阿凶

2025-01-29 03:23:55

蛇年春晚收视出炉！刘涛上场突破39%成最高点，比龙年高了5%

蛇年春晚收视出炉！刘涛上场突破39%成最高点，比龙年高了5%

萌神木木

2025-01-28 23:57:38

英伟达盘初迅速回吐涨幅，现跌超1%，报117美元/股

英伟达盘初迅速回吐涨幅，现跌超1%，报117美元/股

每日经济新闻

2025-01-28 22:52:11

蛇年春晚名场面：小尼表情失控，刘谦魔术翻车，王菲没开麦！

蛇年春晚名场面：小尼表情失控，刘谦魔术翻车，王菲没开麦！

古希腊掌管月桂的神

2025-01-28 22:35:24

蛇年春晚主持人妆容太抢镜！龙洋假睫毛贴歪了，撒贝宁眉毛化飞了

蛇年春晚主持人妆容太抢镜！龙洋假睫毛贴歪了，撒贝宁眉毛化飞了

萌神木木

2025-01-28 20:34:42

deepseek自己回应“窃用美国技术”的谣言，它的回答让老美破了大防

deepseek自己回应“窃用美国技术”的谣言，它的回答让老美破了大防

不掉线电波

2025-01-28 16:43:55

春晚节目单港澳台演员不再单独标注：同为中国人，不必分彼此

春晚节目单港澳台演员不再单独标注：同为中国人，不必分彼此

澎湃新闻

2025-01-28 17:50:38

追踪人工智能动态

9976文章数 175891关注度

往期回顾全部

科技要闻

连夜研究，美股震荡 DeepSeek到底干了什么

头条要闻

美官员：美国出资巴拿马运河关键设施控制权却给中国

头条要闻

美官员：美国出资巴拿马运河关键设施控制权却给中国

体育要闻

阿门称绝杀后感觉像科比休媒挺他成新核

娱乐要闻

蛇年春晚收视出炉！刘涛上场成最高点

财经要闻

抢单、抢货、抢钱，中国经济过年不放假

汽车要闻

10万元级无图智驾悦也PLUS全路况实测

态度原创

房产

健康

游戏

手机

家居

房产要闻

看过才知道，海口这个主城国企大盘，有多宠业主！

抑郁症患者称好的“乌托邦”宝地

《毁灭战士：黑暗时代》PC配置公布采用了D加密

手机要闻

华为Pura 70 Pro推出2款新配色：光织银、魅影黑

家居要闻

岁有安居三世同堂桃花源

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版