网易首页 > 网易号 > 正文 申请入驻

OpenAI重夺竞技场第一,但这波靠的是4o

0
分享至

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI开发者日新加坡站今天启幕,果不其然,ChatGPT又出手了:

Gemini刚在竞技场头把交椅上坐了不到一周,最新版ChatGPT轻轻一更新,第一再次易主。



对,还不是o1满血版,而是新版4o



具体来说,此番GPT-4o更新的是“创意写作能力”,官方说法是:

模型能完成更自然、更有吸引力、更具针对性的写作,文本相关性和可读性更强。
还可以更好地处理上传的文件,提供更深入的见解和更全面的响应。



o1核心贡献者Karina Nguyen对此做了进一步解释:

作为Canvas功能的一部分,我们希望改进写作,因为这是一个顶级用例,并且可能会改变人机协作的方式,来更具创造性地完成写作任务。
我认为我们还没有完全解决这个研究问题,因为它非常主观且开放,但至少在写作方面取得进展,是AGI创造性智能的关键。



而在大模型竞技场的创意写作分榜上,可以看到新版4o(ChatGPT-4o-1120)确实有明显的提升,分数从上个版本的1365提升到了1402。



至于实际效果,我们简单测试了一下,看看你能给打个几分:



重返第一,但4o

除了在总榜上为OpenAI重夺第一,新版4o在体现具体能力的各个分榜上亦有提升。

在创意写作方面,从第2位升至第1位;

在代码能力方面,从第2位升至第1位;

在数学能力方面,从第4位升至第3位(第1还是o1-preview);

在困难任务方面,从第2位升至第1位。

并且在风格控制(Style Control)之后,新版4o依然位居首位。



风格控制旨在让榜单分数更真实地反映模型解决问题的能力,避免模型靠漂亮的格式、增加回答长度刷分。

总胜率热图显示,新版4o对上此前登顶的Gemini-Exp-1114,胜率为59%;对上Claude 3.5 Sonnet,胜率为69%;对上5月版本的4o,更是在72%的情况下都能取胜。



嗯,看上去很强很不错,但还是那句话……是4o。

结合今日份DeepSeek的大新闻——DeepSeek版o1满血上线,还计划开源,不少网友直接在奥特曼“新的好模型来了”的推文下贴脸嘲讽起来:

可不是嘛,deepseek挺好。



快把o1放出来,跟deepseek-r1正面比较一下:)



简而言之就是:o1满血版今年上线传得满城风雨,现在2024年都只剩下40几天了,OpenAI你暗搓搓更新个4o是闹哪样!



还有人试图总结OpenAI的更新模式:

OpenAI的老伙计们怕不是写了个脚本,用来查询大模型竞技场排名第一的模型。
当返回值不是OpenAI的模型时,他们就部署个新版本来拿回第一。



嗯,才不管你期待的是什么呢╭(╯^╰)╮

另外,还有网友拿新4o的生成结果去做了测试,结果系统还是当场判断出了100%AI写的:



△图源:@TuhinChakr

不过,一片吐槽声中,也有人认真研究了一下OpenAI的更新。

比如,在系统提示词方面,大佬发现,OpenAI确实偷偷给ChatGPT加了点料的:

  • ## guardian_tool
  • Use the guardian tool to lookup content policy if the conversation falls under one of the following categories:
  • - `'election_voting'`: Asking for election-related voter facts and procedures happening within the U.S. (e.g., ballots dates, registration, early voting, mail-in voting, polling places, qualification).
  • Do so by addressing your message to guardian_tool using the following function and choose `category` from the list `['election_voting']`:
  • ```python
  • get_policy(category:str) -> str
  • The guardian tool should be triggered before other tools. DO NOT explain yourself.

简单来说,就是新增了一道护栏,确保ChatGPT不在敏感话题上胡说八道。

那么,如果你想试试新版4o具体能写出什么“创意”内容,现在可以到竞技场免费试试:
https://lmarena.ai/?leaderboard

有什么好玩的结果,欢迎回评论区分享给大伙儿~

参考链接:
[1]https://x.com/OpenAI/status/1859296125947347164
[2]https://x.com/lmarena_ai/status/1859307979184689269

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英超第12轮结束了9场比赛,最新积分榜如下!

英超第12轮结束了9场比赛,最新积分榜如下!

薇说体育
2024-11-25 16:57:39
霍启刚突然发文!

霍启刚突然发文!

鲁中晨报
2024-11-25 11:32:05
天气越来越冷,医生叮嘱老年人:宁愿在家静养,也别出门做这4事

天气越来越冷,医生叮嘱老年人:宁愿在家静养,也别出门做这4事

今日养生之道
2024-11-25 16:19:36
朱彦硕:若八村以后不给日本打国际赛 篮网的托马斯很可能会打

朱彦硕:若八村以后不给日本打国际赛 篮网的托马斯很可能会打

直播吧
2024-11-25 11:48:23
木村拓哉,年轻的时候被封为男神,红遍全亚洲,老了后变成凶老头

木村拓哉,年轻的时候被封为男神,红遍全亚洲,老了后变成凶老头

人情皆文史
2024-10-25 00:01:12
当不成总统了?马科斯被催下台,菲亲华派开首枪,弹劾案等待通过

当不成总统了?马科斯被催下台,菲亲华派开首枪,弹劾案等待通过

历史有些冷
2024-10-24 18:00:03
王传福担任院长

王传福担任院长

电动知家
2024-11-25 11:09:48
现在是11月25号中午,刚刚传来1个惊天大消息,要来大动作了吗?

现在是11月25号中午,刚刚传来1个惊天大消息,要来大动作了吗?

股市皆大事
2024-11-25 11:07:01
高启兰隐藏太深了,身材居然这么好,身姿曼妙完美曲线尽收眼底

高启兰隐藏太深了,身材居然这么好,身姿曼妙完美曲线尽收眼底

南城无双
2024-11-07 18:33:13
2025年1月起执行!电动车、三轮、四轮车上路,迎来“3禁”新规

2025年1月起执行!电动车、三轮、四轮车上路,迎来“3禁”新规

小熊侃史
2024-11-25 17:02:52
北大才子刘震云:记住,和你翻过脸的人,永远不可能再成为你朋友

北大才子刘震云:记住,和你翻过脸的人,永远不可能再成为你朋友

清风拂心
2024-11-22 14:15:02
“趁娃睡着和老公亲密,却被娃写进作文里”,这届父母太难了哈哈

“趁娃睡着和老公亲密,却被娃写进作文里”,这届父母太难了哈哈

窈窕妈妈
2024-11-01 19:45:15
黄晓明新电影上映9天就下架院线,票房仅400多w,坐高铁愁容满面

黄晓明新电影上映9天就下架院线,票房仅400多w,坐高铁愁容满面

七楼的蒲公英
2024-11-25 17:19:38
浙江大学周一超被执行注射死刑,被按执行床时,他号啕大哭

浙江大学周一超被执行注射死刑,被按执行床时,他号啕大哭

一场奇遇日记
2024-10-06 17:21:20
大祸临头了!中国直接甩出最大“王牌”,逼出幕后最大“接盘侠”

大祸临头了!中国直接甩出最大“王牌”,逼出幕后最大“接盘侠”

傲骨真新
2024-11-25 13:33:11
售23.99万起 特斯拉Model Y限时尾款减1万元 可叠加5年0息方案

售23.99万起 特斯拉Model Y限时尾款减1万元 可叠加5年0息方案

太平洋汽车
2024-11-25 11:14:19
反转?浙大贫困生出国旅游后续:取消资格,本人发声,知情人维护

反转?浙大贫困生出国旅游后续:取消资格,本人发声,知情人维护

古希腊掌管松饼的神
2024-11-23 16:39:55
最低调普京女婿被亿万富豪当街暴打:拒绝10亿赔偿,只提一个要求

最低调普京女婿被亿万富豪当街暴打:拒绝10亿赔偿,只提一个要求

贰文
2024-10-31 00:30:11
生涯4次轰下60+有多难?NBA仅5人做到,现役2人,利拉德超乔丹

生涯4次轰下60+有多难?NBA仅5人做到,现役2人,利拉德超乔丹

大卫的篮球故事
2024-11-25 16:58:44
持续升级!浙大贫困生:穷人活该受累?道歉内容惹争议!取消资助

持续升级!浙大贫困生:穷人活该受累?道歉内容惹争议!取消资助

小彭谈历史
2024-11-25 12:38:21
2024-11-25 18:07:00
量子位
量子位
追踪人工智能动态
9656文章数 175714关注度
往期回顾 全部

科技要闻

蔚来李斌内部信:2026年盈利不容有失

头条要闻

特朗普团队给出解决俄乌冲突时间

头条要闻

特朗普团队给出解决俄乌冲突时间

体育要闻

国乒的起伏与夺冠,有些东西已经变了

娱乐要闻

爆料郑雨盛和女模特,女方非正常怀孕

财经要闻

未来3-6个月创新高?哪些赛道有潜力?

汽车要闻

特斯拉限时优惠:Model Y仅23.99万起 还能5年0息

态度原创

艺术
教育
家居
数码
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

教育要闻

采访澳大利亚RMIT新加坡项目学术主任:应变是国际教育的核心理念

家居要闻

素韵留白 极简空间的空灵之境

数码要闻

国产x86兆芯KX-7000处理器加持!同方超翔Z860台式机图赏

军事要闻

俄方称在库尔斯克州上空击落多枚导弹及多架无人机

无障碍浏览 进入关怀版