网易首页 > 网易号 > 正文 申请入驻

OpenAI o1全方位SOTA登顶lmsys排行榜!数学能力碾压Claude和谷歌模型,o1-mini并列第一

0
分享至


新智元报道

编辑:乔杨

【新智元导读】o1模型发布1周,lmsys的6k+投票就将o1-preview送上了排行榜榜首。同时,为了满足大家对模型「IOI金牌水平」的好奇心,OpenAI放出了o1测评时提交的所有代码。

万众瞩目的最新模型OpenAI o1,终于迎来了lmsys竞技场的测评结果。

不出意外,o1-preview在各种领域绝对登顶,超过了最新版的GPT-4o,在数学、困难提示和编码领域表现出色;

而o1-mini虽然名字中自带「mini」,但也和最新版的GPT-4o并列综合排名第二,困难提示、编码、数学等领域和o1-preview同样登顶第一。


果然,o1模型不愧是通用推理领域的新王。

lmsys社区官方发推表示,这项测试结果收集了6k+社区投票,并将OpenAI这次取得的进展描述为「令人难以置信的里程碑」。


单纯看排行榜的排名可能不够具有说服力,于是lmsys特意统计了总榜上前25名模型的1v1胜率。

可以看到,o1-preview对所有模型的胜率都超过了50%,对比04-09版GPT-4-Turbo的胜率最高,达到了88%。

o1-mini如果对战o1-preview,胜率为46%,对09-03版GPT-4o的胜率为48%,可以说是大体平手、稍逊一筹的状态。

值得注意的是,虽然Grok-2-mini和Claude 3.5 Sonnet都排在比较靠后的位置,但o1-preview对这两个模型的胜率并不高,分别是58%和57%,大大小于排名第四的Gemini 1.5 Pro的69%。


如果看到细分领域的排行榜,尤其是数学/推理领域,效果则更加惊艳。

o1-preview和o1-mini不仅是登顶数学排行榜,而且是体现出了绝对的领先优势。

排在第三、第四的Claude 3.5 Sonnet、Gemini 1.5 Pro和08-08版ChatGPT-4o的均分都在1275左右,不相上下;o1-preview和o1-mini则一骑绝尘,分数飙到1360附近,直接碾压。


o1推理团队的领导者之一William Fedus看到这张图也是相当开心,他表示这张图「很好地用视觉表达了范式转换」。


看来最新的o1模型在STEM学科和通用推理方面的确又达到了新高度,用实际测评结果回应了「AI遇冷」、「OpenAI碰壁」的质疑声。


「那就继续期待OpenAI接下来的发布吧!」


但一些人感叹「未来可期」的同时,另一些人想到了自己不多的智商和头发。


「模型搞得这么好了,测试就不适合我这种蠢人了。」


同时,也有一些人表达了对lmsys排行榜结果的质疑。

比如,众所周知的o1模型推理时间长,因而回答的延时也长,和其他模型都有明显差别;而且不同于各类基准测试的客观标准,lmsys社区中完全基于用户的主观评分,难说这里面是否存在「安慰剂效应」。


也有人不服o1在编码排行榜上的第一,认为虽然o1-mini非常适合进行项目规划,但在Cursor这类编码助手中还是Claude模型的表现最佳。


排行榜的结果当然不是全部,o1模型能否继续赢得口碑,同时保持住智力水平不变蠢,还要看接下来的一段时间。

IOI金牌代码全公开

说到o1模型的编码能力,不知道你还是否记得,刚发布时OpenAI提到了这样一个指标:如果放宽提交约束到每个问题允许1万次提交,o1可以达到高于IOI金牌门槛的分数。

在模拟进行的Codeforces编程竞赛中,使用相同的规则进行评估,o1-preview可以打败62%的人类选手,正式版o1则上升到超越89%的对手。

专门微调过的o1-ioi模型,表现优于93%的竞争对手。


此外,前段时间有用户

由于o1在编程竞赛领域的表现如此突出,引起了AI社区强烈的兴趣和好奇,OpenAI于是选择发布o1模型提交的代码内容,包括6个问题的全部C++代码以及注释。


发文的yummy是o1模型的核心贡献者Alexander Wei

对于o1的惊艳表现,Alexander Wei自己都很惊讶。

他本人在9年前曾参加IOI竞赛,但从未想到自己这么快就需要和AI竞争,模型展现出的推理过程的复杂程度令人印象深刻。


博文表示,虽然o1模型距离人类的顶级表现还有很长的一段路要走,但我们期待有一天能实现这个目标。

这个发展轨迹让人想起了AlphaGo——从水平高超,到能和人类顶级高手不分胜负,再到5-0完全碾压李世石。

OpenAI想要达成的,估计就是究极进化的、能在编程上碾压人类顶级高手的AlphaZero。

此处公布代码的6个问题具体如下:


有网友指出,其中最令人印象深刻的应该是象形文字(hieroglyphs)问题,o1模型总共得到44分,在现场的所有选手中排名第四。这表明,模型或许可以破译一些人类无法解决的子任务。

前几天,一位目前在NASA工作的天体物理学博士就尝试让o1复现自己论文中的代码,结果一试吓一跳——。


这还只是裸模型,如果加上代码解释器、网络实时搜索等各种工具,效果想必更加惊艳。


而且,Reddit网友还送来了温馨提示:这只是o1预览版哦,可以狠狠期待一下不到一个月就即将问世的正式版o1了。


此外,这位网友还表示,o1基本沿用了GPT-4的架构;那你想,改换架构后的GPT-5(也就是传说中的猎户座)能达到什么高度。

参考资料:

https://x.com/lmsysorg/status/1836443278033719631

https://codeforces.com/blog/entry/134091

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普妻子:二人分床睡,4年前逼他改协议,曾为儿子争夺财产

特朗普妻子:二人分床睡,4年前逼他改协议,曾为儿子争夺财产

莫将离
2024-11-09 23:03:38
社保断缴1次,这些待遇全部取消?全都这样处理

社保断缴1次,这些待遇全部取消?全都这样处理

祥顺财税俱乐部
2024-11-10 09:12:22
曝某中学拖欠老师几个月工资,老师集体罢课给学生放假,财务称学校账上就3000块钱

曝某中学拖欠老师几个月工资,老师集体罢课给学生放假,财务称学校账上就3000块钱

观威海
2024-11-08 10:44:49
中国移动早期号码开始进入“升值期”?139、138开头,你有吗?

中国移动早期号码开始进入“升值期”?139、138开头,你有吗?

小盖纪实
2024-10-18 09:34:51
沉迷赌博的人下场能有多惨?网友:女儿疯掉的时候才16岁

沉迷赌博的人下场能有多惨?网友:女儿疯掉的时候才16岁

奇特短尾矮袋鼠
2024-06-21 18:17:35
大量人员要求退社保,这种现象应该引起重视!

大量人员要求退社保,这种现象应该引起重视!

逍遥论经
2024-10-30 09:19:26
央行和证监会齐齐发声!今日凌晨的四大消息全面发酵!

央行和证监会齐齐发声!今日凌晨的四大消息全面发酵!

风口招财猪
2024-11-11 01:22:02
尊界汽车正式上线!

尊界汽车正式上线!

电动知家
2024-11-10 12:33:01
完美告别!让二追四,39岁曼联新帅率队4-2大逆转,豪取8连胜

完美告别!让二追四,39岁曼联新帅率队4-2大逆转,豪取8连胜

侧身凌空斩
2024-11-11 04:51:46
永辉超市上班发工资了,底层员工工资就这样,看来爆改不够呀。

永辉超市上班发工资了,底层员工工资就这样,看来爆改不够呀。

人情皆文史
2024-10-10 00:58:04
暴雷!负债323亿,员工离职,投资者讨债,又一民营巨头跌落神坛

暴雷!负债323亿,员工离职,投资者讨债,又一民营巨头跌落神坛

云舟史策
2024-10-16 06:20:02
又坑一场,利拉德三分8中1仅得14分4板6助,-14正负值全场最低

又坑一场,利拉德三分8中1仅得14分4板6助,-14正负值全场最低

懂球帝
2024-11-11 09:11:00
越来越多70岁以后的老人,开始流行这3种活法,看完你就明白了

越来越多70岁以后的老人,开始流行这3种活法,看完你就明白了

书中自有颜如玉
2024-11-11 05:22:58
场均25.5分,联盟第一,联盟唯一!感谢哈登,NBA最超值球员诞生

场均25.5分,联盟第一,联盟唯一!感谢哈登,NBA最超值球员诞生

老梁体育漫谈
2024-11-11 00:09:10
毛泽东说:凡经过长征的,不管马夫还是伙夫,都是党和国家的财富

毛泽东说:凡经过长征的,不管马夫还是伙夫,都是党和国家的财富

千丹历史
2024-11-06 01:27:18
黄金交易提醒:金价创逾五个月最大单周跌幅,多数分析师看空后市,散户依然看涨

黄金交易提醒:金价创逾五个月最大单周跌幅,多数分析师看空后市,散户依然看涨

汇通网
2024-11-11 08:38:09
刀郎澳门演唱会,澳门官方懵了:没想到能来那么多人

刀郎澳门演唱会,澳门官方懵了:没想到能来那么多人

微光年
2024-11-10 09:33:54
维拉后卫索要点球未果,被范迪克调侃:你1米91啊,哥们!

维拉后卫索要点球未果,被范迪克调侃:你1米91啊,哥们!

直播吧
2024-11-10 18:44:08
"回来的全不是人",罗布泊老兵临终遗言,揭开骇人听闻内幕

"回来的全不是人",罗布泊老兵临终遗言,揭开骇人听闻内幕

天字号野史
2024-10-09 14:00:03
麦琳女儿“汉服照”找到了,终于明白,她是给李行亮“立规矩”呢

麦琳女儿“汉服照”找到了,终于明白,她是给李行亮“立规矩”呢

圈里的甜橙子
2024-11-10 02:31:12
2024-11-11 09:30:44
新智元
新智元
AI产业主平台领航智能+时代
11730文章数 65665关注度
往期回顾 全部

科技要闻

P7+爆了,但小鹏还未必稳

头条要闻

中国重量级装备现身航展 媒体:全球此前从来没有过

头条要闻

中国重量级装备现身航展 媒体:全球此前从来没有过

体育要闻

骑士11连胜 昔日吃饼男成加强版追梦?

娱乐要闻

叶珂道歉退网!

财经要闻

证监会最新座谈会,吴清强调六个要点

汽车要闻

起售价33.98万 腾势Z9于11月15日广州车展上市

态度原创

旅游
房产
数码
家居
公开课

旅游要闻

5小时50公里!万人扎堆夜骑!开封:要潇洒更要平安

房产要闻

11.11 超燃购房礼来袭,海口海上大平层,掀桌子了!

数码要闻

配备 M5 芯片的苹果 Vision Pro 2 很可能先于经济型机型上市

家居要闻

简约温馨 尽享舒适睡眠

公开课

AI如何揭开大自然和宇宙的奥秘

无障碍浏览 进入关怀版