网易首页 > 网易号 > 正文 申请入驻

OpenAI重夺竞技场第一,但这波靠的是4o

0
分享至

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI开发者日新加坡站今天启幕,果不其然,ChatGPT又出手了:

Gemini刚在竞技场头把交椅上坐了不到一周,最新版ChatGPT轻轻一更新,第一再次易主。



对,还不是o1满血版,而是新版4o



具体来说,此番GPT-4o更新的是“创意写作能力”,官方说法是:

模型能完成更自然、更有吸引力、更具针对性的写作,文本相关性和可读性更强。
还可以更好地处理上传的文件,提供更深入的见解和更全面的响应。



o1核心贡献者Karina Nguyen对此做了进一步解释:

作为Canvas功能的一部分,我们希望改进写作,因为这是一个顶级用例,并且可能会改变人机协作的方式,来更具创造性地完成写作任务。
我认为我们还没有完全解决这个研究问题,因为它非常主观且开放,但至少在写作方面取得进展,是AGI创造性智能的关键。



而在大模型竞技场的创意写作分榜上,可以看到新版4o(ChatGPT-4o-1120)确实有明显的提升,分数从上个版本的1365提升到了1402。



至于实际效果,我们简单测试了一下,看看你能给打个几分:



重返第一,但4o

除了在总榜上为OpenAI重夺第一,新版4o在体现具体能力的各个分榜上亦有提升。

在创意写作方面,从第2位升至第1位;

在代码能力方面,从第2位升至第1位;

在数学能力方面,从第4位升至第3位(第1还是o1-preview);

在困难任务方面,从第2位升至第1位。

并且在风格控制(Style Control)之后,新版4o依然位居首位。



风格控制旨在让榜单分数更真实地反映模型解决问题的能力,避免模型靠漂亮的格式、增加回答长度刷分。

总胜率热图显示,新版4o对上此前登顶的Gemini-Exp-1114,胜率为59%;对上Claude 3.5 Sonnet,胜率为69%;对上5月版本的4o,更是在72%的情况下都能取胜。



嗯,看上去很强很不错,但还是那句话……是4o。

结合今日份DeepSeek的大新闻——DeepSeek版o1满血上线,还计划开源,不少网友直接在奥特曼“新的好模型来了”的推文下贴脸嘲讽起来:

可不是嘛,deepseek挺好。



快把o1放出来,跟deepseek-r1正面比较一下:)



简而言之就是:o1满血版今年上线传得满城风雨,现在2024年都只剩下40几天了,OpenAI你暗搓搓更新个4o是闹哪样!



还有人试图总结OpenAI的更新模式:

OpenAI的老伙计们怕不是写了个脚本,用来查询大模型竞技场排名第一的模型。
当返回值不是OpenAI的模型时,他们就部署个新版本来拿回第一。



嗯,才不管你期待的是什么呢╭(╯^╰)╮

另外,还有网友拿新4o的生成结果去做了测试,结果系统还是当场判断出了100%AI写的:



△图源:@TuhinChakr

不过,一片吐槽声中,也有人认真研究了一下OpenAI的更新。

比如,在系统提示词方面,大佬发现,OpenAI确实偷偷给ChatGPT加了点料的:

  • ## guardian_tool
  • Use the guardian tool to lookup content policy if the conversation falls under one of the following categories:
  • - `'election_voting'`: Asking for election-related voter facts and procedures happening within the U.S. (e.g., ballots dates, registration, early voting, mail-in voting, polling places, qualification).
  • Do so by addressing your message to guardian_tool using the following function and choose `category` from the list `['election_voting']`:
  • ```python
  • get_policy(category:str) -> str
  • The guardian tool should be triggered before other tools. DO NOT explain yourself.

简单来说,就是新增了一道护栏,确保ChatGPT不在敏感话题上胡说八道。

那么,如果你想试试新版4o具体能写出什么“创意”内容,现在可以到竞技场免费试试:
https://lmarena.ai/?leaderboard

有什么好玩的结果,欢迎回评论区分享给大伙儿~

参考链接:
[1]https://x.com/OpenAI/status/1859296125947347164
[2]https://x.com/lmarena_ai/status/1859307979184689269

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广西一家三口的除夕夜,只有4道菜,评论区却一边倒:这才是生活

广西一家三口的除夕夜,只有4道菜,评论区却一边倒:这才是生活

阿龙美食记
2025-01-28 23:05:05
恭喜!刘子琪官宣与张雨绮恋情,晒合照一起过春节,男方身份曝光

恭喜!刘子琪官宣与张雨绮恋情,晒合照一起过春节,男方身份曝光

风语励志情
2025-01-29 00:57:43
中方接到重量级电话,鲁比奥许下3大承诺,中方不信,王毅反将7字

中方接到重量级电话,鲁比奥许下3大承诺,中方不信,王毅反将7字

听风听你
2025-01-28 11:43:33
蒙古国动乱愈演愈烈,矛头指向中国,事关战略布局,该出手相助吗

蒙古国动乱愈演愈烈,矛头指向中国,事关战略布局,该出手相助吗

世界风云录
2025-01-27 17:37:56
令美国的头疼的DeepSeek,创始人说漏嘴,背后团队果然不简单!

令美国的头疼的DeepSeek,创始人说漏嘴,背后团队果然不简单!

沧海一书客
2025-01-27 22:07:23
DeepSeek双杀!一夜干翻英伟达近6000亿市值,再发文生图模型,创始人:中国AI不可能永远处于跟随位置

DeepSeek双杀!一夜干翻英伟达近6000亿市值,再发文生图模型,创始人:中国AI不可能永远处于跟随位置

金融界
2025-01-28 11:58:50
牛群不再隐瞒,坦白不再和冯巩合作的原因:每逢春晚必出事

牛群不再隐瞒,坦白不再和冯巩合作的原因:每逢春晚必出事

派大星纪录片
2025-01-28 10:57:43
山东男子存银行1.1亿,3天后全被转走,银行:钱都帮你还债了

山东男子存银行1.1亿,3天后全被转走,银行:钱都帮你还债了

坦然风云
2025-01-20 18:40:03
一举干翻美股!DeepSeek母公司是做量化投资的,若提前埋伏做空,这波赚飞了

一举干翻美股!DeepSeek母公司是做量化投资的,若提前埋伏做空,这波赚飞了

不掉线电波
2025-01-28 12:07:41
DeepSeek的成功,证明了我们教育绝对牛,教育方面远比国外强!

DeepSeek的成功,证明了我们教育绝对牛,教育方面远比国外强!

看晓天下事
2025-01-27 17:03:32
前央视主持人深夜破防:中国式父母的卑微,太让人心疼…

前央视主持人深夜破防:中国式父母的卑微,太让人心疼…

男孩派
2025-01-27 23:56:07
韩媒:不再是“大陆的错误”,中国产品开始横扫韩国!

韩媒:不再是“大陆的错误”,中国产品开始横扫韩国!

小柱解说游戏
2025-01-29 03:48:47
小尼要和刘谦变魔术、马丽要当沈腾丈母娘……央视春晚亮点多多

小尼要和刘谦变魔术、马丽要当沈腾丈母娘……央视春晚亮点多多

红星新闻
2025-01-28 17:36:15
今天大年初一,记得:1要早,2不吃,3不碰,4不扔,尊重老传统

今天大年初一,记得:1要早,2不吃,3不碰,4不扔,尊重老传统

古装影视解说阿凶
2025-01-29 03:23:55
蛇年春晚收视出炉!刘涛上场突破39%成最高点,比龙年高了5%

蛇年春晚收视出炉!刘涛上场突破39%成最高点,比龙年高了5%

萌神木木
2025-01-28 23:57:38
英伟达盘初迅速回吐涨幅,现跌超1%,报117美元/股

英伟达盘初迅速回吐涨幅,现跌超1%,报117美元/股

每日经济新闻
2025-01-28 22:52:11
蛇年春晚名场面:小尼表情失控,刘谦魔术翻车,王菲没开麦!

蛇年春晚名场面:小尼表情失控,刘谦魔术翻车,王菲没开麦!

古希腊掌管月桂的神
2025-01-28 22:35:24
蛇年春晚主持人妆容太抢镜!龙洋假睫毛贴歪了,撒贝宁眉毛化飞了

蛇年春晚主持人妆容太抢镜!龙洋假睫毛贴歪了,撒贝宁眉毛化飞了

萌神木木
2025-01-28 20:34:42
deepseek自己回应“窃用美国技术”的谣言,它的回答让老美破了大防

deepseek自己回应“窃用美国技术”的谣言,它的回答让老美破了大防

不掉线电波
2025-01-28 16:43:55
春晚节目单港澳台演员不再单独标注:同为中国人,不必分彼此

春晚节目单港澳台演员不再单独标注:同为中国人,不必分彼此

澎湃新闻
2025-01-28 17:50:38
2025-01-29 06:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
9976文章数 175891关注度
往期回顾 全部

科技要闻

连夜研究,美股震荡 DeepSeek到底干了什么

头条要闻

美官员:美国出资 巴拿马运河关键设施控制权却给中国

头条要闻

美官员:美国出资 巴拿马运河关键设施控制权却给中国

体育要闻

阿门称绝杀后感觉像科比 休媒挺他成新核

娱乐要闻

蛇年春晚收视出炉!刘涛上场成最高点

财经要闻

抢单、抢货、抢钱,中国经济过年不放假

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

房产
健康
游戏
手机
家居

房产要闻

看过才知道,海口这个主城国企大盘,有多宠业主!

抑郁症患者称好的“乌托邦”宝地

《毁灭战士:黑暗时代》PC配置公布 采用了D加密

手机要闻

华为Pura 70 Pro推出2款新配色:光织银、魅影黑

家居要闻

岁有安居 三世同堂桃花源

无障碍浏览 进入关怀版