网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI新模型达到博士水平？我找清北博士品鉴了一下。

2024-09-14 00:07:32　来源: 差评XPIN

浙江举报

0

分享至

说实话，有点受不了这些公司，老是半夜丢个大的了。。。

尤其点名 OpenAI ，这回又毫无预告地发布了那个大家惦记了很久的新模型。

之前说什么草莓不草莓的，一张草莓的照片遛了大家好几天

结果，这回新模型根本跟草莓毛关系没有，而是起了一个全新的名字Oepn AI o1 模型。

而且这玩意已经号称 openAI 的天顶星科技，奥特曼直接发帖明说了，这就是他们到现在为止最强、最一致的模型。

跟往次不同的是，这玩意到底多牛 OpenAI 实际也没多吹，但是轻飘飘甩出了几张图，就有点让人头皮微麻。

像下面的图里，三个测试项目的结果就能说明了，分别是国际数学奥林匹克竞赛、编程竞赛还有博士级别的科学问题。

这里面最左边为 GPT-4o ，中间是目前已经开放了的预览版 o1 ，最右边高高的红色柱子为满血 o1 。你瞅瞅，基本每一项， o1 比起自己的前辈来说，都是接近 8 倍的提升。。。

要是把这些测试结果拆开来，这新 o1 也几乎是在各种学科、各种领域，都全量、全面、全方位地超越 4o 。

而真正让差评君觉得可怕的是， OpenAI 说自己专门请了博士专家一起答题。

结果在博士级别的测试结果上，我们看到 o1 答题分数均超过了博士专家。o1 得分 78 ，人类得分 69.7 。。。

连博士都输了，那我和它比算什么？

敏感的网友们，直接就炸了呀。又开始喊着，新的神已经出现。

随便一翻，都是带着【最】字的超高评价，什么 “ 简直太棒了！ ” 、 “ 最接近人类推理的东西 ” 。

甚至有不少差友跑到咱们后台，感慨 o1 你小子确实有点东西啊。

听起来是不是很牛逼？OpenAI 他们自己很显然也是这么觉着的。

具体 OpenAI 在它上面花了多少钱还没公布，但从用户使用上，就能明显看到这玩意多耗钱了。

o1 预览版每百万输入 15 美元，每百万输出 60 美元

这次对用户开放的甚至不是满血版本，就是一个早期的预览版和一个小型阉割版。

哪怕只是抢先尝鲜，不仅不免费，哪怕你掏钱开了会员，也卡你问答次数。预览版每周只有 30 条， mini 每周只有 50 条。。。

虽然有点贵，但我们肯定不可能让 OpenAI 吹什么就是什么。

他们不是说超过博士了吗？差评君就冲了几个账号，去找了几个博士来亲测了一下。

为了保证专业性和客观性，我们专门邀请了理综三科的博士参与测评，有生物学、固体物理学、材料化学等等。

其中，南京大学在读的固体物理学崔博士给出的评价，算是几个人里最高的。他觉得 o1 已经达到了 60 - 80 分（满分 100 ）的水平。

甚至，部分回答也可以给到 90 分。

崔博士给的第一个问题：远距离纠缠光子分发，有什么克服白噪声的办法？

大概 9 秒钟左右， o1 就给出了 10 点可行的措施。

当然了，没一个点是我看得明白的。不过，崔博士的评价还可以：答案列举全面，符合现有的最新研究进展，属于科普级别的答案。

其中，提到的自适应光学的方向甚至是今年最新的 science 成果。

和老版 4o 一比，马上高下立判了。

就别说新方向提没提到，光是给出的措施数量上，就差了不少。

于是后面，我们就专门对自适应光学这个船新方向进行了追问：利用了量子纠缠的什么原理来提高信噪比？能否拓展到量子自适应光学？

几轮答案之后，崔博士给出了 80 - 90 分的高分，还大方地和我承认，部分思考是他的薄弱点，对他的方向有提示作用。

不过，后续我们再深入追问之后，它问题就暴露出来了。当追问到更难的实验细节部分， o1 的回答效果就会降低。

但总体来说，在物理方面， o1 的表现算是不错的。和老版比下来，提升基本在 20 分左右。

不过，在 OpenAI 的测试里，物理本来就是分数最高的。所以我们又拉来一位北大在读材料化学的 K 博士，想对它评分最低的化学，来几个狠问题。

K 博士围绕Fe-N4 问了一系列的问题， o1 给了很长的一串回答，为了精简篇幅我们这里只展示了部分问题和结果。

整体测试之后， K 博士给出的评价也差不多：可能有研究生水平，但是深入的认知和给方案的能力，比较虚，主要还是针对已知内容作答。

比如问到如何调节 Fe-N4 ， o1 可以说出基于电子态调节，但你要是问它那该咋调节，它就有点卡壳了。

虽然相比 gpt4o 没那么胡说八道，但具体的问题上他俩都给不了太多建议，老版是丧失细节乱说，新版能力有限就会词穷。

除了这俩，理综三科那肯定也少不了生物。

我们还咨询了来自清华，在读生物学的信博士，他的问题是： “ 如何从质谱数据集中区分赖氨酸残基的乳酰化和羧乙基修饰？ ”

虽然我听不懂，但是 o1 也给了一段非常长的回答，跟论文综述似的，后面还贴了参考文献。

但出乎意料的是，当我们把这个回答交给信博士，人家看完就发现不对路了，而且是一眼丁真的问题。

倒不是这 AI 回答的全错，而是 AI 在参考文献里乱编，这论文压根不存在！

虽然编了，但也没完全编，总体来说人家清华博士还是觉得比之前的 AI 能强不少，起码理解能力是肉眼可见了，编也编的很像。。。

不过，不同方向的博士评价有所区别，这或许也跟 o1 自己擅长的领域有关。

拿官方给出的理综分数来看，虽然 gpt4o 在生物学上的评分要比化学和物理高，但这回的 o1 就完全不一样。

o1 在物理上的分数达到了 92.8 ，已经远超其他两门学科，这或许就是崔博士对它比较看好的原因。

总体而言，真要说到超越专业博士水平，博士们认为还得缓缓。

崔博士直言，在现实科研工作中，多数情况学者们都还得自己动手， AI 只能提供大致方向，因此花钱要这样的细致 AI 意义不大。

他更推荐本科生选择这个 AI ，要是硕博阶段，那这个 AI 的回答其实并不符合导师标准，组会上肯定要挨批。

清华的信博士也同样持这种看法，且不说 AI 的幻觉编造文献问题，就专业程度而言， AI 的回答也只能糊弄大同行，也就是同一大学科里面方向不同的人群；而在小同行，专业研究这个方向的人眼里， AI 的毛病还是非常明显的。

北大 K 博士则谈的更深入，他认为这个 AI 只能说在认知上有了硕士生的水平，但也只是作为一个缝补匠，谈不上说出什么创造性的成果。就创造性这一点来说， AI 是远远比不上硕博的水平的，这也是 AI 需要解决的重要问题。

在博士们的评价里，我们似乎能抓到一个重点：o1 模型之所以相对更强，是因为他有了更高维的认知和思考模式。

这，也是 o1 本次更新的要点。我们在 OpenAI 官网找到了 Learning to Reason with LLMs 这篇文章，他们在文中表示，主要是他们用上了长思维链 ( CoT ， Chain of thought ) ，而不是传统的提示链（ Prompt chain ）。

第一眼看上去有点懵，说人话就是，这个大模型改变了以往那种你问我答的思考方式。

在以前的模式下，大模型的问答就跟下意识出答案一样，比如你问我天是啥颜色，这问题我想都不想，秒答蓝色。这实际上需要我本来就知道这个知识点，然后给你直接反应就完了。

但这个长思维链就相当于，我不仅要知道蓝色是个啥，还能自己推一遍为啥是蓝色，什么大气散射，光谱波长都要考虑进去。

这就需要 AI 得有实打实的构建逻辑，推理论证的能力，换句话说，他不仅要长脑子，还要动脑子。

尽管思维链这个概念是 2022 年谷歌提出来的，但 OpenAI 这次是第一个实现的。

实操过程中，现在你与 o1 模型对话，除了收获答案，还可以看选择展开看他解答问题时的思维逻辑，他的思考是具象化的而不是黑盒。

比如我们拿崔博士提问的 “ 远距离纠缠光子分发，有什么克服白噪声的办法？ ” 这一问题为例， o1 模型的思考过程如下：

不过，就像专业领域的问题它也会翻车一样，有些日常场景的简单题似乎也有可能难住它。

拿之前那个经典 9.11 和 9.8 比大小例子来说，小红书网友 @ 小水刚醒就发现这玩意 “ 一上难度就崩溃……无限循环发疯般推思维链（ CoT ） ”

我们编辑部自己评测时也发现了这个问题，不过当询问它为什么的时候，它也会马上反应过来自己推理出现了错误，然后再重新推导一番。

好好好，不愧是博士，善于发现错误是吧。

整轮测试下来，差评君不得不承认，它确实是大大提升了。士别三日，也的确应当刮目相看。

在效果上，也确实相比前代确实更好，而且长思维的应用，对未来 AI 发展都是好事。

但在几位博士轮番鞭打完以后，它的问题也暴露得挺明显的，在创造力等某些方面，还替代不了人类博士专家。

不过 OpenAI 的研究人员 Noam Brown 透露，未来版本的 o1 将会思考几个小时、几天甚至几周，虽然这样烧钱会更多，但像在研发抗癌药这些任务上，这种花费也是值得的。

另外，差评君觉得 GPT o1 实现的思维链模式，也很有可能会像之前的 Transformer 架构、 DiT 架构那样，又会引领全世界的大模型的方向。

所以说，通往 AGI 之路说近不近，但说远也不远，期待接下来各家的选手轮番登场了。

撰文：纳西 & 四大

编辑：江江 & 面线

美编：焕妍

图片、资料来源 ：OpenAI ，X ， IBM ，小红书等，图源网络

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

「LLM」这个名字不好，Karpathy认为不准确、马斯克怒批太愚蠢

机器之心Pro 2024-09-17 11:42:33
0 跟贴 0
依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

机器之心Pro 2024-09-27 16:13:36
0 跟贴 0

硅谷AI精英人均“百万美元”薪酬，业界标配还是谣言？

钛媒体APP 2024-06-08 20:00:15
0 跟贴 0

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

量子位 2024-09-08 13:27:35
49 跟贴 49
5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

新智元 2024-11-22 13:03:06
10 跟贴 10

大疆前高管带6人创业，做出了类目Top1的割草机器人

钛媒体APP 2024-05-30 14:49:18
82 跟贴 82

一只暹罗猫竟是论文作者！谷歌学术20岁，创始人首次公开最魔幻学术故事

新智元 2024-11-23 13:19:23
14 跟贴 14
抢疯了，腾讯给大模型人才，定了一个前所未有的标准

机器之心Pro 2024-06-21 15:20:08
0 跟贴 0

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

量子位 2024-09-04 18:16:57
0 跟贴 0
硕士毕业成为二本院校的青椒，第三年我彻底悟了

生物学霸 2024-09-07 17:33:04
0 跟贴 0
婆婆学会网购后，低价买了一堆模型，网友：家里同款爸妈

青州融媒 2024-11-22 07:00:00
8 跟贴 8
英媒讨论硕士学位“含金量”

环球时报国际 2024-11-21 08:49:03
17 跟贴 17
市政府以5年100多万引进的博士，竟然主要是干值班值守的日常琐碎

故衣谈历史 2024-11-22 09:50:16
0 跟贴 0
旷世神作，足坛近乎不可能的进球，物理学在他们面前像是个笑话

柳小红爱生活 2024-11-23 18:01:50
0 跟贴 0
年轻人抛弃搜索引擎

虎嗅APP 2024-10-09 16:10:30
1041 跟贴 1041
学好物理化走遍天下都不怕真是厉害

暗暗剪辑 2024-11-23 08:41:32
1 跟贴 1
梁朝伟获科大颁授荣誉博士，坦言从没上大学，同框黄仁勋一脸自信

开开森森 2024-11-23 12:25:02
480 跟贴 480
九岁神童打脸航天局博士，简直不要太爽了

瓜瓜看剧 2024-11-22 13:52:39
1 跟贴 1
国内假名媛过时了，小红书正在批量制造“联合国名媛”

首席合规观察 2024-11-23 15:14:04
315 跟贴 315
谷歌Gemini突发试验版模型，重回竞技榜第一！GPT-4o只领先了1天

量子位 2024-11-22 14:58:48
17 跟贴 17
一篇论文没发，师兄竟获得诺贝奖，他当场致谢了让自己延毕的导师

生物学霸 2024-10-24 12:42:02
15 跟贴 15
不用冷冻电镜，学会它你也能分分钟成为结构生物学大佬

生物学霸 2024-08-02 17:54:07
0 跟贴 0
世界上最准的时钟来了，它会颠覆现在的物理学吗？前不久，美国科罗拉多大学叶军教授团队，用原子核制造了

量子位 2024-10-30 17:38:29
0 跟贴 0
马保国现身宿州奥斯卡酒吧，五连鞭轻松走起！嗨翻全场

动态新闻 2024-11-23 10:07:53
20016 跟贴 20016
惨了，因质粒用错，博士被撤稿，痛失学位，导师：我不允许各位重蹈覆辙

生物学霸 2024-09-19 18:04:00
8 跟贴 8
温州某学院传闻！涉事教师均被

温百君 2024-11-23 18:36:51
2 跟贴 2
《物理夜航船：直觉与猜算》| 周末读书

中国物理学会期刊网 2024-11-23 11:28:19
0 跟贴 0
湖南平江藏着价值6000亿元黄金村民：捡石头里都有金

上游新闻 2024-11-23 08:09:16
12439 跟贴 12439
安徽农业大学青年教师在一区Top期刊（IF5y=10.2）上发表研究成果

植物研究进展 2024-11-20 11:21:20
1 跟贴 1
哈利和博士交易，这把兄弟害苦了

兔子王追剧 2024-11-22 17:04:22
1 跟贴 1
超大质量黑洞打破物理学定律成为宇宙巨无霸

cnBeta.COM 2024-11-23 16:48:04
0 跟贴 0
拳皇98：擂台赛给对手直接剃头，导师小孩的赶时间打法

生生游戏解说 2024-11-22 18:05:57
2 跟贴 2
百善孝为先！博士生儿子每逢节假日都帮环卫工父母扫街#正能量

NZ75鸽 2024-11-23 07:32:54
0 跟贴 0
科学究竟是什么？如何探索和对待科学真理？

师姐追笑人 2024-11-22 20:54:09
0 跟贴 0
物理学彻底不管用

挑灯剪辑 2024-11-20 14:30:21
1 跟贴 1
海产品提供了具有，很高生物学价值的蛋白质

奇遇荒野 2024-11-23 14:57:33
0 跟贴 0
农村研究生研究的工具，农民用起来很顺手，申请专利不是问题！

雇主的搞笑社 2024-11-23 09:14:40
1 跟贴 1
几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

机器之心Pro 2024-09-04 22:17:21
56 跟贴 56
浙大贫困生晒出国旅游照后续：已被保送清华，本人发声，清华回应

林大师热点 2024-11-23 09:39:47
3901 跟贴 3901
梁朝伟获港科大荣誉博士，梁朝伟：做每一个项目时把自己当作一个初学者，这会让你保持新鲜

CQTV新视界 2024-11-23 16:00:08
0 跟贴 0

阿尔特塔：有厄德高在何时都是好事；培养恩瓦内里要一砖一瓦

阿尔特塔：有厄德高在何时都是好事；培养恩瓦内里要一砖一瓦

懂球帝

2024-11-24 05:06:13

恩波负责人想和王宝强协商，称20多年来俱乐部投入超1亿多

恩波负责人想和王宝强协商，称20多年来俱乐部投入超1亿多

素素娱乐

2024-11-23 10:03:20

香港这一夜，看到77岁汪明荃和44岁林峯，TVB的尴尬一览无余

香港这一夜，看到77岁汪明荃和44岁林峯，TVB的尴尬一览无余

简读视觉

2024-11-22 15:03:58

“杨子口型”登热搜第一！他到底对麦琳说了什么，节目组都消音了

“杨子口型”登热搜第一！他到底对麦琳说了什么，节目组都消音了

娱乐的小灶

2024-11-23 23:35:48

世界波轮番出鞘！4-1大冷门，英超第19掀翻英超第7，迎来2连胜

世界波轮番出鞘！4-1大冷门，英超第19掀翻英超第7，迎来2连胜

侧身凌空斩

2024-11-24 01:23:32

掘金无缘24分逆转惜败独行侠：克莱8中0 约基奇复出33+17+10

掘金无缘24分逆转惜败独行侠：克莱8中0 约基奇复出33+17+10

醉卧浮生

2024-11-23 13:45:45

女性在这几个时间段，欲望更为高涨，“行事”更为和谐，别害羞

女性在这几个时间段，欲望更为高涨，“行事”更为和谐，别害羞

番茄健康

2024-11-24 00:48:07

国乒大获全胜！WTT福冈总决赛完美收官：中国队女单包揽冠亚军

国乒大获全胜！WTT福冈总决赛完美收官：中国队女单包揽冠亚军

肖语谈

2024-11-23 16:23:04

大反转？知情人揭露恩波格斗创始人真面目，背后恐涉大案

大反转？知情人揭露恩波格斗创始人真面目，背后恐涉大案

辣条小剧场

2024-11-23 06:16:37

看了范丞丞，再看王安宇，真是没对比就没伤害，正午口碑保住

看了范丞丞，再看王安宇，真是没对比就没伤害，正午口碑保住

温柔娱公子

2024-11-23 14:17:56

山西沁源女教师出轨男学生后续，高清照被扒

山西沁源女教师出轨男学生后续，高清照被扒

说真话的小陈

2024-11-23 16:08:18

震惊！网传深圳的各大医院都在降薪，医院的苦日子真的要开始了…

震惊！网传深圳的各大医院都在降薪，医院的苦日子真的要开始了…

火山诗话

2024-11-21 20:42:39

现代间谍还有多大用处？网友分享真实事件，看完细思极恐！

现代间谍还有多大用处？网友分享真实事件，看完细思极恐！

美好客栈大掌柜

2024-11-24 01:15:03

恩波俱乐部：王宝强确实支付了30万，但我们的贡献远不止这点

恩波俱乐部：王宝强确实支付了30万，但我们的贡献远不止这点

映射生活的身影

2024-11-23 16:57:53

5万人面前！瓜帅面如死灰，曼城0-4翻船，惨遭5连败，落后榜首5分

5万人面前！瓜帅面如死灰，曼城0-4翻船，惨遭5连败，落后榜首5分

侧身凌空斩

2024-11-24 03:25:46

74岁张艺谋看圆明园铜首，穿厚底鞋打扮时髦，何超琼亲自陪同！

74岁张艺谋看圆明园铜首，穿厚底鞋打扮时髦，何超琼亲自陪同！

古希腊掌管月桂的神

2024-11-23 22:11:48

国宝秘方：阳痿十二剂变猛男

今日养生之道

2024-11-22 07:35:07

女人一生能接受跟多少个男人“发生关系”？一位女性讲述：好现实

女人一生能接受跟多少个男人“发生关系”？一位女性讲述：好现实

伊人河畔

2024-11-23 10:36:05

为何没哪位教练说林诗栋爱退台，福冈总决赛的对手邱党有发言权

为何没哪位教练说林诗栋爱退台，福冈总决赛的对手邱党有发言权

双曼说球

2024-11-23 09:32:17

全红婵晒跳水队宿舍：干净又整洁，单人床靠墙放，玩偶多空间不大

全红婵晒跳水队宿舍：干净又整洁，单人床靠墙放，玩偶多空间不大

柚子新媒

2024-11-23 23:21:58

用知识和观点Debug the world！

8038文章数 487745关注度

往期回顾全部

科技要闻

华为徐直军首谈鸿蒙生态是什么

头条要闻

拜登政府常务副国务卿放话：我们在努力"拆散"中俄

头条要闻

拜登政府常务副国务卿放话：我们在努力"拆散"中俄

体育要闻

那个"最惨背景帝" 41岁还是五大联赛主力

娱乐要闻

德云社人事大变动！烧饼担任副总

财经要闻

钟睒睒的“愤怒”，谁能消解？

汽车要闻

对话张纯伟：80万！捷途立了一个新Flag

态度原创

旅游

数码

教育

艺术

时尚

旅游要闻

吉林长春：机器狗上岗服务雪场游客

数码要闻

初创公司为笔记本电脑推出 SoundSlide 实体音量键，售 15 美元

教育要闻

广东汕头金山中学，2022年期末试题，求数列通项公式

艺术要闻

故宫珍藏的墨迹《十七帖》，比拓本更精良，这才是地道的魏晋写法

伊姐周六热推：电视剧《白夜破晓》；电视剧《太阳星辰》......

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版