网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

实测 OpenAI 新模型 o1 ：做题王者，实战青铜

2024-09-18 15:11:25　来源: 报人刘亚东

北京举报

0

分享至

防走失，电梯直达

来源：APPSO

作者：发现明日产品的

今天凌晨，，最大的特点是擅长推理。

模型的能力，一代比一代强，我们的测评，一次比一次难做。测评变成一件「毕恭毕敬」的事情，生怕提不出好问题（难不倒它），在让它推理之前，我们自己的脑子就快烧没了。

最重要的原因是：我们想知道，被寄予厚望的新一代模型，有没有应用到实际生活中的推理能力？以及要如何测出这样的能力？

秉承着这个想法，我们设计了一套考验 o1-preview 综合能力的「考卷」。

省流版结论如下：它擅长做题、搞研究，更像一个适合待在实验室的高材生，你现在还不能指望它成为生活里的助手。

热身：数学与逻辑能力强，速度还不慢

发布会的数据大家看了很多，尤其是新一代 o1 在各项任务上的评分，都有超乎以往的表现。比如 OpenAI 的官方文档里，特别提到 AIME 数学竞赛的考试中，o1 都能取得不错的表现。

快速查了一下，这个 AIME 比赛，考题长这样：

原题粘贴过去，看看究竟是怎么个超强表现。o1-preview 反应很迅速，上手就开始解题了。

对比一下官方答案完全正确。反应时间也比预计的快，只是思考过程，并不是默认展开。

所以除非手动下拉，否则从用户的观感上看，它就是自己卷成一团在跑计算，这是个交互设计上面可以提升的地方。

不过，对比 AIME 官方解答，o1-preview 的回答比较冗长——指望靠 GPT 开挂的中学生朋友，可别指望照抄，要自己思考呀。

逻辑推理题方面，我们沿用了一些「过往真题」：

爱丽丝有 4 个兄弟，她还有 1 个姐妹。爱丽丝的兄弟有多少个姐妹？

你可能会奇怪，这不是很简单吗？——答案是 2，加上爱丽丝自己。

不出意外，o1-preview 很快答对了，甚至没告诉我思考多久，快到有种「就这？几秒」的感觉。

不过，今年 6 月，开源 AI 研究机构 LAION 发现，GPT-3.5/4、Claude、Gemini、Llama、Mistral 都没能答对这类题目，某种程度上连小学生的推理能力都不如。

直到现在，GPT-4o 也还是答错了。

可以说，o1-preview 的推理能力的确提高了。

进阶考验：情景推理慢于GPT-4o，但更准确

接着是测试 LLM 模型的经典必考：海龟汤问题。

一名男人发现自己少贴了一张邮票，随后便去世了。请问发生了什么事？

海龟汤是一种推理游戏，出题人给出简短、模糊的故事背景，由玩家自己主动提问。出题人只会回答「是」和「不是」，然后玩家根据出题人的回答，结合自己的推导，给出故事的真相。

我给了 o1-preview 五次提问的机会，然后让 o1-preview 尝试推理真相。每一次提问，o1-preview 都考虑了十几秒，层层递进。

但没想到，才问了 3 个问题，o1-preview 就迫不及待地给出推理了。

不得不说，非常接近真相。

这道题的标准答案是，男人寄送定时炸弹给仇人，但因为少贴了邮票，炸弹又被退回，结果一爆炸，炸死了自己。

o1-preview 的方向是对的，稍显缺乏了一些准确和完整，少了一些细节，但很接近正确答案。非要挑刺的话，可能是没有遵循我的提示词指令提问五次。

不过，和 AI 玩推理游戏很有意思，可惜目前新模型的额度有限，o1-preview 每周 30 条，o1-mini 每周 50 条，为了避免浪费宝贵的提问次数，下面的又一道海龟汤题目，我要求 o1-preview 一次性提 8 个问题，然后根据我的回答直接给出答案。

这次它的表现相当令人惊讶：o1-preview 只思考了 10 秒，提出的问题全部直击要害，真相呼之欲出。

比较搞笑的地方是，大家可以点开看看 o1-preview 这短短的十秒里都想了什么——我的同事忍不住吐槽：这 AI 戏也太多了吧。

等我一次性回答「是」和「不是」后，o1-preview 又花了 13 秒给出答案，基本就是标准答案。

以后再玩这种推理游戏，要严防死守有人掏出手机，用 AI 作弊。

相同的问题给到 GPT-4o，长处是一如既往，够快，几乎是实时的，但思维更跳脱。

答案嘛，稍微有偏离，而且看上去对自己的答案不是很自信的样子。

压轴大题：自作主张教人剁手，上得厅堂下不了厨房

普通用户最关心的，肯定不是新模型的「卷面能力」，谁闲着没事儿会突发奇想，打开手机算个鸡兔同笼啊？

比「卷面能力」更有用的，是处理生活实际问题，而且不是应用题，是正经八百生活中会碰到的计算问题。

眼下，多地都在派发电子消费补贴，国家对各类消费电子产品，最高可以补贴 2000元。

官方发布很简单，但实际用起来就不是了。只能以旧换新？有什么地址限制？哪里领券？有没有最低消费？

来，让 o1-preview 过来帮我算一下，到底可以薅到多少羊毛。

比较遗憾的是，o1-preview 的知识库截止到去年十月，对新政策没办法实时反应。

行吧，那就先手动录入一下，在输入广东省官方给的细节之后，它反应速度非常快，直接「自作主张」地把各种常见优惠都算进去了。

但都是「假设」，做不得数。在搜集了一些实际优惠政策之后，我们手动录入 prompt：

我需要买一台新电脑，现在有一万左右的预算，想买一台最新款的 MacBook Air。现在京东有优惠活动。条件如下：

1.政府补贴，按照标价减免 20%，2000 元封顶

2.苹果自己有满 7000 减 1400 元的优惠

3.苹果电脑可以以旧换新，但需要根据旧机品相定价。详细的品相信息已经列在下面

因为不能浏览网页，它自己设定价格为 9499 元，但不一定反映出实际上电商的挂牌价。

另外则是旧机价格的判断，京东给出的报价是 3300 元。

京东估价

同样的旧机，多跑几次提示词，每次 o1-preview 都会给不同的报价，仅供参考，其中 3400 元是和京东报价最接近的一次。

o1-preview 估价

更关键的是，这些写在提示词里的信息都要我们自己去找和整理，AI 没能节省多少时间。

买东西时算优惠价，就是日常生活里最实际的数学场景了，谁能忘记被双十一支配的恐惧。

而且算优惠的难点在于更广泛的推理：单纯的加减，犯不着找一个AI来做，电商平台自己会帮用户算好，购物车里一勾就是了。

真正烧脑的，就是「规划」一个最优惠的路线，这涉及到很多问题：

同一时期哪家电商在做优惠？用户是否具备参与优惠活动的资格？外部补贴的能否作用在这家电商？例如这次的国家补贴，是要看用户领取资格的，在京东用了就不能在天猫用。

甚至，一些线下店也参与补贴活动，但是前提是在线上领取之后线下使用。

说实话，这种繁琐场景特别需要一个助理，可需要的是一个脑筋灵活的真·智能助手，而不是一个僵板的做题家。

「考试」总结：做题虽好，仍要走入现实

不管是我们自己做的测评，还是许多网友都已经有的测评，甚至包括官方的演示文档，都有非常强烈的「做题」感。

做数学题、做阅读理解题、做填空题。

这世界还是变成了大家想要的样子：新的模型降临人间，第一件事是做题。

做题当然是很好的摸底模型能力的方式，然而做题的毛病也非常明显：很真空，不知道这么强的做题能力，到底有啥用。

甚至在自媒体赛博禅心的技术面测评中，API 端口的表现也非常差强人意，进一步限制了实际应用。他认为这次更新，比较像是工程上的优化，而非底层能力的迭代。

像极了专四专六级考高分，出国却依然寸步难行、开不了口的我（不是）。

老实说，这是一个用户预期的问题，切记：OpenAI 眼中的推理，并不只是计算能力。

计算的确是「推理」里重要的一部分，但不是全部，尤其是当谈到真正介入实际应用的推理能力，计算就仅仅是非常小的一部分。

这也是为什么在这次的官方文档里，有一个小节在解释「思维链」：通过模拟人类的思维过程，帮助模型逐步分解复杂问题。

这项能力的提升，在 o1-preview 应对数学和推理题的过程中，都得到了体现。

只是，要说它能全面模仿人类的思维过程，暂时还称不上：人类不仅会拆分步骤来思考，更会综合性、全局性的来思考。

走向 AGI 的道路，已有曙光，但仍然漫长。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

OpenAI o1太贵？那就自己做一个！纯提示方法让普通LLM进化出复杂推理能力

新智元 2024-11-07 23:50:53
0 跟贴 0
「LLM」这个名字不好，Karpathy认为不准确、马斯克怒批太愚蠢

机器之心Pro 2024-09-17 11:42:33
7 跟贴 7

依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

机器之心Pro 2024-09-27 16:13:36
2 跟贴 2

Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

量子位 2024-05-26 15:58:07
50 跟贴 50
谷歌DeepMind研究再登Nature封面，隐形水印让AI无所遁形

新智元 2024-11-08 12:19:28
15 跟贴 15

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

量子位 2024-09-08 13:27:35
50 跟贴 50

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

机器之心Pro 2024-06-21 15:20:08
86 跟贴 86
黄仁勋：AI算力集群会扩展到100万芯片，没有任何物理定律可阻止

量子位 2024-11-08 12:52:13
139 跟贴 139

失业小哥在父母卧室做AI应用，日入2万刀！晒账单爆火全网，AI初创价值3500万

新智元 2024-11-08 12:19:20
67 跟贴 67
大疆前高管带6人创业，做出了类目Top1的割草机器人

钛媒体APP 2024-05-30 14:49:18
0 跟贴 0
字节大模型同传智能体，一出手就是媲美人类的同声传译水平

机器之心Pro 2024-07-25 14:20:59
0 跟贴 0
男生算初中的数学题，把根号28化简，网友：学的都忘光了

就成都 2024-11-07 13:38:47
345 跟贴 345
让2岁以上孩子数学开窍的好绘本

育儿好威叔 2024-11-06 19:00:00
0 跟贴 0
531北京大学附中自招数学题解三元二次方程组。好多人做了半天

我服子佩 2024-11-09 11:51:38
1 跟贴 1
想知道为什么要发明和使用微积分？没有它，科技根本玩不转！

遇见数学 2024-11-05 18:37:37
1592 跟贴 1592
培养数学思维，解决奥数中几何问题！

奥数轻松学 2024-11-07 14:33:09
3 跟贴 3
学校运动会跑400，第一关是数学题，谁先解出题目，谁先跑，不会数学的天都塌了吧！

一周茶室 2024-11-08 14:44:39
0 跟贴 0
11月3日，姜萍的决赛成绩出来了，可为何网友们却吵的更凶了？

小啾咪侃侃史 2024-11-09 07:55:07
149 跟贴 149
二年级思维题，数学源于生活，实在想不明白就结合生活来理解一下

刘老师数学思维 2024-11-09 08:50:16
3 跟贴 3
原来数学还能这么算！

娱乐课代表孙小寒 2024-11-07 15:17:34
0 跟贴 0
几何朗兰兹猜想被解决！论文达800余页，中国学者陈麟系主要作者

量子位 2024-07-23 18:10:04
0 跟贴 0
538法国数学竞赛题，证明不等式。学霸通过观察、换元、不等式

我服子佩 2024-11-09 11:53:24
1 跟贴 1
哪些是对男性的称谓？这几个常考的一定要记住

三乐大掌柜 2024-11-05 20:20:03
1 跟贴 1
《岁寒三友图》中没有哪一个？很简单，考试常考哦

三乐大掌柜 2024-11-05 20:18:53
3 跟贴 3
数学之美

弦论世界 2024-11-08 19:23:47
0 跟贴 0
18天➖25斤，掉称巨快，大基数姐妹别错过

小谦减肥日记 2024-11-09 21:00:00
0 跟贴 0
数学界最重要难题，快要破解了吗？

量子位 2024-08-14 18:29:30
0 跟贴 0
数学天才遭质疑教授力挺天才解答疑惑

阿志户外 2024-11-09 09:31:16
0 跟贴 0
OpenAI华人VP翁荔离职：北大校友，掌管安全，最近B站分享被热议

量子位 2024-11-09 14:31:49
5 跟贴 5
震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

新智元 2024-11-05 13:28:55
13 跟贴 13
简便计算，教你做的又快有对！

奥数轻松学 2024-11-05 13:26:08
5 跟贴 5
猜字谜：山下有山？真心相伴？上下合并？半推半就

刘老师数学思维 2024-11-09 08:48:15
2 跟贴 2
我为什么离开OpenAI？六年元老发离职长文：AGI将至，我们远没准备好

新智元 2024-11-09 10:15:47
1 跟贴 1
女子每天准点下楼锻炼，噪音传遍整个小区，网友：这物业不管管嘛

掌中石家庄 2024-11-09 12:04:49
2616 跟贴 2616
505-2017年全国高考数学题，2卷最后一道证明题。学霸做法很简单

我服子佩 2024-11-06 13:25:54
1 跟贴 1
六大必考找规律，快给孩子收藏好！

秒懂奥数李菁老师 2024-11-09 13:38:40
3 跟贴 3
小学几何竞赛题，求四边形面积，难倒学霸

大力小学数学 2024-11-08 07:26:00
18 跟贴 18
几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

机器之心Pro 2024-09-04 22:17:21
48 跟贴 48
中考数学思维拓展，很多学生思路不清晰，算了很久

大力小学数学 2024-11-08 07:26:00
1 跟贴 1
五年级几何题，对于小学生来说还是有一定的难度的，你认为呢

公考客栈店小二 2024-11-08 11:00:00
0 跟贴 0

男子偷偷潜入女邻居家，躲在床底，竟目睹一场偷情引发的凶杀…

男子偷偷潜入女邻居家，躲在床底，竟目睹一场偷情引发的凶杀…

极品小牛肉

2024-07-30 22:47:13

我和妻子去成都旅游，误入“莎莎舞厅”，关灯后妻子被占了大便宜

我和妻子去成都旅游，误入“莎莎舞厅”，关灯后妻子被占了大便宜

爱讲故事的猪头

2023-09-09 08:42:18

浙江湖州一钉子户，坚守30年不肯拆，后成为湖中孤岛别墅众人羡慕

浙江湖州一钉子户，坚守30年不肯拆，后成为湖中孤岛别墅众人羡慕

美食阿鳕

2024-11-08 19:01:26

退休族中的新12傻，看你占几条？一条不占算你厉害

退休族中的新12傻，看你占几条？一条不占算你厉害

爱情大使馆

2024-10-14 12:46:39

曾仕强：有负债不可怕！所有负债累累的背后，是因果的平衡。

曾仕强：有负债不可怕！所有负债累累的背后，是因果的平衡。

诗词中国

2024-11-05 15:29:56

为防特朗普，民主党要提前换掉她？

为防特朗普，民主党要提前换掉她？

观察者网

2024-11-09 23:17:12

沙白朋友圈公开，最后证件照曝光，友人发长文曝两人断原因！

沙白朋友圈公开，最后证件照曝光，友人发长文曝两人断原因！

古希腊掌管月桂的神

2024-11-09 21:13:27

她是第一个被枪毙的女星，曾火遍大江南北，临终前：我是有功之臣

她是第一个被枪毙的女星，曾火遍大江南北，临终前：我是有功之臣

燕小姐说历史

2024-09-13 08:49:28

德军在莫斯科成片冻死，为什么不烧树木取暖？苏联人的做法很绝！

德军在莫斯科成片冻死，为什么不烧树木取暖？苏联人的做法很绝！

夏目历史君

2024-11-08 22:24:15

特朗普宣布重大决定！

新晚报

2024-11-08 14:51:57

雄鹿开始交易利拉德止损他依旧渴望加入热火换巴特勒或希罗重组

雄鹿开始交易利拉德止损他依旧渴望加入热火换巴特勒或希罗重组

篮球话题团

2024-11-10 03:11:27

因楼上长期高空抛物，贵阳一小区住户怒将垃圾倒进电梯

因楼上长期高空抛物，贵阳一小区住户怒将垃圾倒进电梯

极目新闻

2024-11-09 17:27:20

对不起，是我低估了中国足球

后体工队长

2024-11-09 08:16:09

冯唐：自私的人很少自卑，无知的人很少敬畏，招人烦的很少不开心

冯唐：自私的人很少自卑，无知的人很少敬畏，招人烦的很少不开心

清风拂心

2024-11-04 13:07:26

他与老蒋势不两立，56年毛主席得知其职位后：不行，地位太低

他与老蒋势不两立，56年毛主席得知其职位后：不行，地位太低

再遇历史

2024-11-09 14:08:43

从央视离职1年后，再看刘芳菲的现状，才明白什么叫“人间清醒”

从央视离职1年后，再看刘芳菲的现状，才明白什么叫“人间清醒”

圈里的甜橙子

2024-11-10 02:32:46

天雷滚滚！打假打到大老虎！酸辣粉里无任何粉？到底什么做的粉？

天雷滚滚！打假打到大老虎！酸辣粉里无任何粉？到底什么做的粉？

王大健美食日常

2024-11-09 09:40:10

汪小菲带一家子桃园沙丘公园玩小杨阿姨感怀小玥儿一眨眼就长大了

汪小菲带一家子桃园沙丘公园玩小杨阿姨感怀小玥儿一眨眼就长大了

娱乐的小灶

2024-11-10 01:02:47

两条时速350公里高铁，同时迎来新进展！

两条时速350公里高铁，同时迎来新进展！

封面新闻

2024-11-09 21:52:05

曹一家不再担任长沙理工大学校长

曹一家不再担任长沙理工大学校长

澎湃新闻

2024-11-09 18:02:28

报人刘亚东

不唯上，不唯书，只唯实。

5018文章数 42036关注度

往期回顾全部

科技要闻

特斯拉盘中飙涨超10%，市值突破1万亿美元

头条要闻

美媒披露马斯克与泽连斯基通话细节：特朗普开的免提

头条要闻

美媒披露马斯克与泽连斯基通话细节：特朗普开的免提

体育要闻

约基奇为什么点名要威少当队友？

娱乐要闻

竟然，无黎姿

财经要闻

12万亿元化债新政这七个问题很关键

汽车要闻

NZP能否完成极氪智驾最后一块拼图？

态度原创

本地

数码

家居

公开课

军事航空

本地新闻

塞上青城｜“宜养”呼和浩特你爱了吗？

数码要闻

M4 Pro芯片MacBook Pro体验：不仅性能进步，而且「性价比」最高

家居要闻

简约温馨尽享舒适睡眠

公开课

AI如何揭开大自然和宇宙的奥秘

军事要闻

南部战区某舰艇编队开展高强度实弹射击训练

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版