网易首页 > 网易号 > 正文 申请入驻

沃顿商学院教授发文解析o1:能力仍有短板,「人机协同智能」或成AGI最重要难题

0
分享至


新智元报道

编辑:乔杨

【新智元导读】OpenAI最近奉上了满血版的o1 Pro,这一全新系列的模型究竟有多强?它能否指明AI发展的未来方向?沃顿商学院教授在3个月的前一篇博客就中给出了「神预言」一般的答案。

o1 preview问世3个月后,,奥特曼号称其为「当今世界上最智能的模型」。

所以,这个正式的o1 Pro究竟强大到了什么程度?

可以肯定的是,它远远不是一个走到AGI终点的灭霸,但这是scaling law之后的又一个里程碑吗?代表着未来LLM的发展方向吗?能像OpenAI研究院Jason Wei所说的,足以成为一个「传奇」吗?


就在o1 Pro发布的当口,沃顿商学院副教授、GenAI实验室联合主任Ethan Mollick提起了这篇自己3个月前写就的博客,可以说既是模型发布前的「神预言」,也是一盆有理有据、恰到好处的「冷水」。


Ethan Mollick表示,早在9月份我们第一次见到o1 preview时,他就写下了这篇博客文章,详解这个模型对当下和未来都意味着什么。模型的质量很重要,但更为重要的是,了解模型对人工智能未来的潜在意义。

下面,我们就把这篇文章当成时间传送门,将3个月前横空出世的o1 preview和处在性价比漩涡中的o1 Pro放在一起比较,或许可以给当下提供更多启发。

「草莓」大显身手


一段时间之前,我已经接触到了传闻沸沸扬扬的被称为「草莓」的增强版推理系统,现在OpenAI将其发布了,我也终于可以分享一些想法。

这个模型的确让人惊讶,但能力仍然有限,但最重要的是,它的出现指明了AI的发展方向。

新模型被称为o1-preview(此处Mollick狠狠吐槽OpenAI等一众AI公司在命名上非常糟糕),让AI在解决问题之前先「思考」一个问题,因此能够解决需要规划和迭代的困难问题。

根据这张我们都熟悉的基准结果图,o1-preview在数学和科学领域尤为强悍,对于极其困难的物理问题,甚至可以击败博士级别的人类专家。


但需要明确的是,o1-preview并不是在所有方面都有提升,比如在写作方面就没有比GPT-4o更强;但对于需要计划的任务来说,变化就相当大了。

由于很难评估所有这些复杂任务的输出,因此要展示「Strawberry」模型的提升(以及一些限制),也许最简单直观的方法就是游戏——比如填字游戏(crossword puzzle)。

不要小瞧了填字游戏,这是一个下限很低但上限也很高的项目,最难的填字游戏完全可以达到地狱模式,而且非常考验逻辑推理能力。

电影《模仿游戏》中就有这样的情节:二战期间,AI之父Alan Turing担任英国密码破译项目Enigma的负责人,为了招揽全国在数学和密码学方面的才俊,他就在报纸上登出了一个填字游戏作为报名测试,甚至最后一关的现场考核也是要求a在规定时间内做出填字游戏题。


电影《模仿游戏》剧照

由于o1 preview还无法从图片中读取文字,因此Mollick只能自己手动打出来喂给模型。如下图所示,这是一个相当具有挑战性的难题,而且,Mollick只挑选了18条线索中的8条提供给o1。


填字游戏对于LLM来说尤其困难,因为需要迭代解决:尝试并否决掉许多相互关联的答案——这是之前的大模型无法做到的,因为他们一次只能在答案中添加一个token/单词。

如下图所示,如果给Claude提供相应的线索,它首先给出序号1的答案(它猜测是STAR,但这个答案是错误的),然后在此基础上尝试解答其余部分。

然而,由于第一颗扣子就扣错了,Claude永远都无法接近正确答案。如果没有规划流程,它就只能向前冲,并不知道自己前进的方向是对是错。


Claude的尝试

但面对相同的问题时,「草莓」时会怎么做呢?

首先,它会开始「思考」,这个过程持续了整整108秒(但大多数问题都能在更短的时间内解决)。

而且,o1思考时并不是一声不吭,而是会「自言自语」,输出自己的「思维链」让你看到它的想法。下面是其中的一个示例(还有更多内容未展示出来),而且这些想法非常有启发性,值得你花点时间阅读。


在这个过程中,「草莓」反复迭代,不断创造想法并否决其中不可行的部分,结果做得很好,令人印象深刻。

但值得注意的是,o1-preview似乎仍然基于GPT-4o,而且有时对于语言的理解过于拘泥于字面意思。

比如,下图右侧中1 Down的答案是「Galaxy cluster」,这显然并不是指真正的星系,而是Samsung Galaxy手机——「APPS」。

AI并没有猜到这层意思,因此不断尝试各种星系团的名称,然而确定Down 1是COMA(是一个真实的星系团),可想而知,其余的结果也不正确。虽然不完全符合规则,但也相当有创意。

但公平来讲,Mollick本人也没有猜到这层意思。如果把「Down 1是APPS」这个线索提供给o1,可以看到模型又开始在接下来的1分钟内快速迭代想法(下图左侧),并正确推理出了Across 1的答案是「ACTS」。


这里是o1在一条线索的基础上给出的最终答案,完全正确,而且解决了硬引用,尽管它幻想出了一条不存在的新线索。相比之下,身为名牌大学副教授的Ethan Mollick甚至都没能接近这个正确答案。


至此我们可以发现,o1-preview做了一些没有Strawberry就不可能完成的事情,但它仍然不是完美无缺的:错误和幻觉仍然会发生,而且仍然受限于底层模型GPT-4o的「智能」的限制。

虽然Claude有很多优点,但相比之下,o1在复杂规划或解题方面远远胜出,代表了这些领域的巨大飞跃。

从协同智能到...

o1-preview意味着我们正面临人工智能范式的改变。「规划」是智能体的一种表现形式,人工智能可以在没有人类帮助的情况下自行得出结论并解决问题。

可以从上面的例子中看到,AI完成了太多繁重的思考工作,并产生了完整的结果,人类作为合作伙伴的角色反而被削弱了,整个过程的主体是AI完成了自己的工作并给出答案。

当然,我们可以筛选推理思维链的输出来发现AI犯了哪些错误,但Ethan Mollick的感觉是,他作为布置任务的人,和AI的输出内容之间没有什么联系,也没有在引导解决方案的走向上发挥重要作用。这不一定是坏事,但和之前不同。

随着这些系统不断升级并逐渐接近真正的自主智能体,我们需要弄清如何与其保持人类在保持同步——既能捕获错误,又要及时察觉到我们试图解决的问题。

o1-preview正在缓缓拉开帷幕,解锁我们尚未见到的AI能力,尽管它目前还存在局限性。这给我们留下了一个关键问题:随着AI的发展,我们如何进化人类与人工智能的合作?这是o1-preview目前还无法解决的问题。

参考资料:

https://x.com/emollick/status/1864857524840616345

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
第一次看到阿根廷汽车2024年10月销量榜单,真是令人哭笑不得!

第一次看到阿根廷汽车2024年10月销量榜单,真是令人哭笑不得!

人情皆文史
2024-11-17 00:02:48
张馨予丈夫已转业,就职广州大学保卫处,合影站在角落却帅气依旧

张馨予丈夫已转业,就职广州大学保卫处,合影站在角落却帅气依旧

娱圈小愚
2024-12-18 08:49:05
魔兽世界:一觉醒来,工作室和刷子集体失业,雷火直接把桌子掀了

魔兽世界:一觉醒来,工作室和刷子集体失业,雷火直接把桌子掀了

胖哥游戏说
2024-12-18 14:25:12
男子举报“邻居家有车有房吃低保” 纪委调查:该家庭三人享低保符合条件,不存在违规

男子举报“邻居家有车有房吃低保” 纪委调查:该家庭三人享低保符合条件,不存在违规

红星新闻
2024-12-12 17:25:24
伊朗里亚尔为何突然暴跌18倍?

伊朗里亚尔为何突然暴跌18倍?

火星宏观
2024-12-17 22:58:18
上海国资概念午后异动 龙头股份直线涨停

上海国资概念午后异动 龙头股份直线涨停

每日经济新闻
2024-12-18 13:47:58
18号收评:预判全对!所有人都注意了,美国降息靴子或将落地!

18号收评:预判全对!所有人都注意了,美国降息靴子或将落地!

春江财富
2024-12-18 15:42:55
施罗德:我刚得知被交易到勇士的消息后 感到非常震惊

施罗德:我刚得知被交易到勇士的消息后 感到非常震惊

直播吧
2024-12-18 06:02:33
同样是50岁,“长期保养”和“长期素颜”人对比,差距有多大?

同样是50岁,“长期保养”和“长期素颜”人对比,差距有多大?

素衣读史
2024-12-18 16:14:10
我在领导家当保姆,他妻子去世后,我花了十年,终于成了女主人

我在领导家当保姆,他妻子去世后,我花了十年,终于成了女主人

农村情感故事
2024-11-16 08:05:53
社评:乌克兰危机,欧盟这样做很不明智

社评:乌克兰危机,欧盟这样做很不明智

环球网资讯
2024-12-17 23:40:12
陈冠希女儿奢侈生活曝光,一年喝水近20万,他称要为女儿重返银幕

陈冠希女儿奢侈生活曝光,一年喝水近20万,他称要为女儿重返银幕

柴叔带你看电影
2024-12-17 16:15:12
指珍爱网冒充二狗APP投放广告截留用户!创始人李二狗回应

指珍爱网冒充二狗APP投放广告截留用户!创始人李二狗回应

南方都市报
2024-12-18 13:12:09
喻剑南,已赴任山东

喻剑南,已赴任山东

新京报政事儿
2024-12-17 21:49:16
贾玲承认反弹复胖,幽默发言很圈粉,回归《王牌9》的看点有了!

贾玲承认反弹复胖,幽默发言很圈粉,回归《王牌9》的看点有了!

星寒新影视
2024-12-18 12:57:06
她突然宣布:退出国家队

她突然宣布:退出国家队

鲁中晨报
2024-12-18 13:20:05
特朗普正式赢得总统职位后,首次出访第一站应该是中国?

特朗普正式赢得总统职位后,首次出访第一站应该是中国?

解筱文
2024-12-18 00:08:43
复旦大学教授的一句话在台湾火了,直接让台湾媒体和网民心理破防

复旦大学教授的一句话在台湾火了,直接让台湾媒体和网民心理破防

农夫故事斋
2024-12-17 15:31:55
梁朝伟董洁往事还能瞒多久?爆两人房间满地成人用品!

梁朝伟董洁往事还能瞒多久?爆两人房间满地成人用品!

派大星纪录片
2024-12-16 17:52:45
抗美援朝最大骗局:老美隐藏41年的绝密情报,竟是志愿军诱饵?

抗美援朝最大骗局:老美隐藏41年的绝密情报,竟是志愿军诱饵?

为什么有冬天夏天
2023-12-13 22:29:41
2024-12-18 19:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
11885文章数 65735关注度
往期回顾 全部

科技要闻

诉五角大楼后 中微半导体被美移出"黑名单"

头条要闻

女子怂恿养母偷房本让养父背上百万债务 养父:想不通

头条要闻

女子怂恿养母偷房本让养父背上百万债务 养父:想不通

体育要闻

维尼修斯获FIFA年度最佳 创4大纪录

娱乐要闻

曝吴奇隆刘诗诗已离婚?蛛丝马迹被扒

财经要闻

重磅!中央农村工作会议在京召开

汽车要闻

搭载鲲鹏超能混动C-DM 奇瑞风云T11PT车下线

态度原创

健康
本地
艺术
房产
公开课

花18万治疗阿尔茨海默病,值不值?

本地新闻

好吃潮州|“丸”美出道,你pick了吗

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

房产要闻

主城销冠红盘热度回归!全新奢居生活样板惊艳曝光!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版