网易首页 > 网易号 > 正文 申请入驻

OpenAI重夺竞技场第一,但这波靠的是4o

0
分享至

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI开发者日新加坡站今天启幕,果不其然,ChatGPT又出手了:

Gemini刚在竞技场头把交椅上坐了不到一周,最新版ChatGPT轻轻一更新,第一再次易主。



对,还不是o1满血版,而是新版4o



具体来说,此番GPT-4o更新的是“创意写作能力”,官方说法是:

模型能完成更自然、更有吸引力、更具针对性的写作,文本相关性和可读性更强。
还可以更好地处理上传的文件,提供更深入的见解和更全面的响应。



o1核心贡献者Karina Nguyen对此做了进一步解释:

作为Canvas功能的一部分,我们希望改进写作,因为这是一个顶级用例,并且可能会改变人机协作的方式,来更具创造性地完成写作任务。
我认为我们还没有完全解决这个研究问题,因为它非常主观且开放,但至少在写作方面取得进展,是AGI创造性智能的关键。



而在大模型竞技场的创意写作分榜上,可以看到新版4o(ChatGPT-4o-1120)确实有明显的提升,分数从上个版本的1365提升到了1402。



至于实际效果,我们简单测试了一下,看看你能给打个几分:



重返第一,但4o

除了在总榜上为OpenAI重夺第一,新版4o在体现具体能力的各个分榜上亦有提升。

在创意写作方面,从第2位升至第1位;

在代码能力方面,从第2位升至第1位;

在数学能力方面,从第4位升至第3位(第1还是o1-preview);

在困难任务方面,从第2位升至第1位。

并且在风格控制(Style Control)之后,新版4o依然位居首位。



风格控制旨在让榜单分数更真实地反映模型解决问题的能力,避免模型靠漂亮的格式、增加回答长度刷分。

总胜率热图显示,新版4o对上此前登顶的Gemini-Exp-1114,胜率为59%;对上Claude 3.5 Sonnet,胜率为69%;对上5月版本的4o,更是在72%的情况下都能取胜。



嗯,看上去很强很不错,但还是那句话……是4o。

结合今日份DeepSeek的大新闻——DeepSeek版o1满血上线,还计划开源,不少网友直接在奥特曼“新的好模型来了”的推文下贴脸嘲讽起来:

可不是嘛,deepseek挺好。



快把o1放出来,跟deepseek-r1正面比较一下:)



简而言之就是:o1满血版今年上线传得满城风雨,现在2024年都只剩下40几天了,OpenAI你暗搓搓更新个4o是闹哪样!



还有人试图总结OpenAI的更新模式:

OpenAI的老伙计们怕不是写了个脚本,用来查询大模型竞技场排名第一的模型。
当返回值不是OpenAI的模型时,他们就部署个新版本来拿回第一。



嗯,才不管你期待的是什么呢╭(╯^╰)╮

另外,还有网友拿新4o的生成结果去做了测试,结果系统还是当场判断出了100%AI写的:



△图源:@TuhinChakr

不过,一片吐槽声中,也有人认真研究了一下OpenAI的更新。

比如,在系统提示词方面,大佬发现,OpenAI确实偷偷给ChatGPT加了点料的:

  • ## guardian_tool
  • Use the guardian tool to lookup content policy if the conversation falls under one of the following categories:
  • - `'election_voting'`: Asking for election-related voter facts and procedures happening within the U.S. (e.g., ballots dates, registration, early voting, mail-in voting, polling places, qualification).
  • Do so by addressing your message to guardian_tool using the following function and choose `category` from the list `['election_voting']`:
  • ```python
  • get_policy(category:str) -> str
  • The guardian tool should be triggered before other tools. DO NOT explain yourself.

简单来说,就是新增了一道护栏,确保ChatGPT不在敏感话题上胡说八道。

那么,如果你想试试新版4o具体能写出什么“创意”内容,现在可以到竞技场免费试试:
https://lmarena.ai/?leaderboard

有什么好玩的结果,欢迎回评论区分享给大伙儿~

参考链接:
[1]https://x.com/OpenAI/status/1859296125947347164
[2]https://x.com/lmarena_ai/status/1859307979184689269

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大S去世连登10条热搜,具俊晔神秘隐身,儿女抚养权将归汪小菲

大S去世连登10条热搜,具俊晔神秘隐身,儿女抚养权将归汪小菲

祝晓塬
2025-02-03 12:44:21
大S发病和救治过程曝光,家人先后五次延误治疗,将她送进鬼门关

大S发病和救治过程曝光,家人先后五次延误治疗,将她送进鬼门关

光影新天地
2025-02-03 13:50:11
突然爆雷!涉案超500亿,掌门人卷款跑路,“投资帝国”彻底凉了

突然爆雷!涉案超500亿,掌门人卷款跑路,“投资帝国”彻底凉了

毒sir财经
2025-02-02 20:52:49
Shams:福克斯被交易至马刺!拉文前往国王

Shams:福克斯被交易至马刺!拉文前往国王

直播吧
2025-02-03 09:33:16
微信官方从没告诉你的骚操作!5分钟让DeepSeek化身24小时智能客服!

微信官方从没告诉你的骚操作!5分钟让DeepSeek化身24小时智能客服!

山东教育信息
2025-02-03 05:57:16
导游爆料大S被耽误治疗,两次被救护车拉走,具俊晔直言状态不好

导游爆料大S被耽误治疗,两次被救护车拉走,具俊晔直言状态不好

萌神木木
2025-02-03 13:55:38
美国彻查新加坡是否向中国DeepSeek转销英伟达芯片!新加坡回应

美国彻查新加坡是否向中国DeepSeek转销英伟达芯片!新加坡回应

魏家东
2025-02-03 07:56:01
大S离世细节曝光:大年初五早上死亡,半月前就计划去日本过年

大S离世细节曝光:大年初五早上死亡,半月前就计划去日本过年

娱乐圈圈圆
2025-02-03 12:51:37
大S去世,因染流感引发肺炎,日本流感疫情到底有多严重?

大S去世,因染流感引发肺炎,日本流感疫情到底有多严重?

可达鸭面面观
2025-02-03 11:39:28
网传春晚结束后,女星都由助理搀扶离开,网友:这搀比的是咖位!

网传春晚结束后,女星都由助理搀扶离开,网友:这搀比的是咖位!

火山诗话
2025-02-01 21:41:55
大S过往病史曝光!曾多次因癫痫复发紧急送医,心脏也有隐患

大S过往病史曝光!曾多次因癫痫复发紧急送医,心脏也有隐患

南方都市报
2025-02-03 11:39:06
48岁大S在日本离世,小S发文证实,旅行团知情人曝离世细节

48岁大S在日本离世,小S发文证实,旅行团知情人曝离世细节

叶公子
2025-02-03 11:59:00
王宝强回村过年,穿2万羽绒服配棉拖成最靓的崽,村民排队合影

王宝强回村过年,穿2万羽绒服配棉拖成最靓的崽,村民排队合影

时髦范
2025-01-31 19:10:38
花式大收割,浙江一家人圈走21亿,操作技巧令人叹为观止

花式大收割,浙江一家人圈走21亿,操作技巧令人叹为观止

灰鸽观察室
2025-02-02 21:45:00
大S因流感并发肺炎去世!更多细节曝出:在日本跟团,2日早晨离世

大S因流感并发肺炎去世!更多细节曝出:在日本跟团,2日早晨离世

派大星纪录片
2025-02-03 11:07:15
肺癌发出的第一个信号,会反映在喉咙上?这3异常小心是癌作祟

肺癌发出的第一个信号,会反映在喉咙上?这3异常小心是癌作祟

落叶玫瑰
2024-11-22 08:22:24
沙溢一家泰国过年,49岁胡可长斑严重沙溢秃顶显老,俩儿子壮如牛

沙溢一家泰国过年,49岁胡可长斑严重沙溢秃顶显老,俩儿子壮如牛

小娱乐悠悠
2025-02-03 09:48:50
大S流感并发症离世,很遗憾,这也是流感最致命的危险

大S流感并发症离世,很遗憾,这也是流感最致命的危险

互联网大观
2025-02-03 13:44:16
女婿拜年被瞧不起后续:开奥迪回家,准备离婚,岳父追到抖音骂

女婿拜年被瞧不起后续:开奥迪回家,准备离婚,岳父追到抖音骂

玫瑰讲娱
2025-02-03 11:39:40
国人曝在欧美过春节被歧视,门上贴的春联,被无理由要求撕掉

国人曝在欧美过春节被歧视,门上贴的春联,被无理由要求撕掉

小萝卜丝
2025-02-02 17:02:43
2025-02-03 15:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
9980文章数 175902关注度
往期回顾 全部

科技要闻

狂飙!比亚迪大爆发,1月销量超30万辆

头条要闻

大S生前破10年斋戒吃肉努力怀孕 曾称死后世界非常美

体育要闻

不再Stay Humble,阿森纳打崩了曼城

娱乐要闻

大S去世 过往病史公开曾屡被紧急送医

财经要闻

一场史诗级贸易战,就此开打了

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

教育
房产
本地
数码
游戏

教育要闻

专访北师大教授薛贵:不提升孩子大脑的学习力,很容易陷入“低效鸡娃”

房产要闻

共鉴白鹅潭烟花盛景!2025年,与亲融人居凯粤湾,奔赴新生活!

本地新闻

非遗版春节|来西沱古镇,晒土家新年

数码要闻

2025 年 1 月 Steam 硬件调查:英伟达显卡霸榜

《星战前夜》公布2025年路线图 包括玩家自定任务等