网易首页 > 网易号 > 正文 申请入驻

人工智能开始与人类思维产生不祥的分离

0
分享至

人工智能在真理和正确性方面有很大的问题,而人类的思维似乎是这个问题的很大一部分。新一代人工智能现在开始采用更具实验性的方法,这可能会使机器学习远远超过人类。

还记得Deepmind的AlphaGo吗?它代表了人工智能发展的一个根本性突破,因为它是第一批不接受人类指令、不阅读规则的可玩游戏的人工智能之一。



相反,它使用了一种叫做“自我游戏强化学习”的技术来建立自己对游戏的理解。在数百万甚至数十亿的虚拟游戏中进行纯粹的试验和错误,开始时或多或少随机地使用任何可用的杠杆,并试图从结果中学习。

在2014年该项目启动的两年内,AlphaGo以5比0击败了欧洲围棋冠军,到2017年,它击败了世界排名第一的人类棋手。

此时,Deepmind在国际象棋领域推出了一个类似的AlphaZero模型,在那里,深蓝(Deep Blue)等模型接受了人类思维、知识和规则集的训练,自上世纪90年代以来一直在击败人类大师。AlphaZero与人工智能卫冕冠军Stockfish进行了100场比赛,赢了28场,其余比赛打成平手。

人类的思维给人工智能踩了刹车

Deepmind开始主导这些游戏 —— 以及shoji、Dota 2、星际争霸II和许多其他游戏 —— 当它放弃了模仿人类是获得好结果的最佳方式的想法时。

与我们不同,这些电子大脑受到不同的限制,拥有不同的天赋,它们被赋予了自由,以自己的方式与事物互动,发挥自己的认知优势,并建立自己对什么有效、什么无效的基本理解。

AlphaZero不像Magnus Carlssen那样懂象棋。它从来没有听说过女王的Gambit,也没有研究过伟大的大师。它只是下了一大堆的国际象棋,并建立了自己的理解,以一种不人道和不可思议的语言,它创造了自己的胜利和失败的冷酷硬逻辑。

因此,它比任何人类训练的模型都要好得多,这是绝对肯定的:如果另一方有一个高级强化学习代理,那么没有一个人类,没有一个用人类思维训练的模型在国际象棋比赛中有机会。

据比地球上任何人都更了解真相的人说,类似的事情是最新、最伟大的ChatGPT版本刚刚开始发生的事情。

OpenAI的新o1模型开始偏离人类思维

ChatGPT和其他大型语言模型(LLM)人工智能,就像那些早期的国际象棋人工智能一样,已经接受了尽可能多的人类知识的训练:我们物种的全部书面输出,或多或少。

他们已经变得非常非常好了。所有这些关于他们是否会实现人工智能的废话 … 天哪,你能想象一个人类在能力上能与GPT-4o竞争吗?

但LLM专攻的是语言,而不是对或错的事实。这就是为什么他们会“产生幻觉” —— 或者胡扯 —— 用措辞优美的句子给你错误的信息,听起来像新闻主播一样自信。

语言是一个奇怪的灰色地带的集合,很少有一个答案是100%正确或错误的,所以LLM通常使用强化学习和人类反馈来训练。也就是说,人类会选择听起来更接近他们想要的答案。但事实、考试和编码 —— 这些东西确实有明确的成功/失败条件;要么你猜对了,要么你猜错了。

这就是新的o1模型开始脱离人类思维的地方,并开始引入AlphaGo那种极其有效的方法,即纯粹的试错法,以追求正确的结果。

o1在强化学习方面迈出的小步

在很多方面,o1和它的前辈差不多 —— 除了OpenAI在开始回答提示之前建立了一些“思考时间”。在这段思考时间里,o1产生了一个“思维链”,在这个思维链中,它考虑并推理出解决问题的方法。

这就是强化学习方法的作用所在 —— 与之前的模型不同,前者更像是世界上最先进的自动补全系统,它真的“关心”事情是对是错。通过部分训练,这个模型被赋予了在其思维推理链中以随机试错方法解决问题的自由。

它仍然只有人类生成的推理步骤可供借鉴,但它可以自由地随机应用这些步骤,并得出自己的结论,以何种顺序,哪些步骤最有可能让它得到正确答案。

从这个意义上说,这是第一个真正开始创造奇怪但超级有效的AlphaGo式问题空间“理解”的LLM。在它现在超越博士水平的能力和知识的领域,它基本上是通过尝试和错误,通过数百万次自我生成的尝试偶然找到正确的答案,并通过建立自己的理论来判断哪些是有用的推理步骤,哪些不是。

因此,在有明确的正确和错误答案的话题中,我们现在开始看到这种“外星智慧生物”用自己的双脚迈出了第一步。如果游戏世界是现实生活的一个很好的类比,那么朋友们,我们知道事情的发展方向。只要有足够的能量,它就能永远加速。

但o1的主要训练对象仍然是人类语言。这与真理非常不同 —— 语言是对现实的粗糙和低分辨率的表现。这么说吧:你可以整天向我描述一种饼干,但我不会尝它的味道。

那么,当你停止描述物理世界的真相,让人工智能去吃点饼干时,会发生什么呢?我们很快就会找到答案,因为嵌入机器人身体的人工智能现在开始建立自己对物理世界如何运作的基本理解。

人工智能通往终极真理的途径

从牛顿、爱因斯坦和霍金粗陋的人类思维中解脱出来,具身的人工智能将采取一种奇特的AlphaGo风格的方法来理解世界。他们会戳戳现实,观察结果,用自己的语言建立自己的理论,解释什么有效,什么无效,以及为什么有效。

它们不会像人类或动物那样接近现实。它们不会使用像我们这样的科学方法,也不会把事物分成像物理和化学这样的学科,也不会进行同样的实验,这些实验帮助人类掌握了周围的材料、力量和能源,并统治了世界。

被赋予这种学习自由的具身人工智能将会非常怪异。它们会做你能想到的最奇怪的事情,原因只有它们自己知道,在这样做的过程中,它们会创造和发现人类永远无法拼凑在一起的新知识。

从我们的语言和思维中解脱出来,它们甚至不会注意到它们突破了我们知识的界限,发现了宇宙的真相和新技术,这些是人类在10亿年内都不会偶然发现的。

我们在这里得到了一些缓刑;这不会在几天或几周内发生,不像LLM世界里发生的很多事情。

现实是我们所知道的最高分辨率的系统,也是真理的最终来源。但它的数量非常多,而且处理起来也非常缓慢;与模拟不同的是,现实要求你以每分钟一分钟的缓慢速度进行操作,而且你只能使用你实际建造的身体数量。

因此,试图从基本现实中学习的具身人工智能,最初不会像基于语言的前辈那样拥有惊人的速度优势。但它们仍将比进化速度快得多,因为它们有能力在群体学习中将自己的学习成果汇集到合作群体中。

特斯拉(Tesla)、图灵(Figure)和Sanctuary AI等公司正狂热地致力于打造具有商业价值和成本竞争力的类人机器人。一旦他们实现了这一点 —— 如果他们实现了这一点 —— 他们将能够制造出足够多的机器人,开始在对物理世界的基础上,在规模和速度上进行反复试验。

不过,他们需要支付自己的费用。想想都很有趣,但这些类人可能会在工作之余学会掌控宇宙。

OpenAI的o1模型可能看起来不像是一个巨大的飞跃,坐在GPT单调的文本服装中,看起来就像另一个隐形的终端打字员。但这确实是人工智能发展的一个步骤,也是这些外星机器最终将如何以各种可能的方式超越人类的短暂一瞥。

如果朋友们喜欢,敬请关注“知新了了”!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
主力冲高出逃!本周主力已经大幅卖出200股名单

主力冲高出逃!本周主力已经大幅卖出200股名单

说故事的阿袭
2024-09-30 22:37:30
405:0!美国众议院破天荒全票通过法案,特朗普展开“总统发言”

405:0!美国众议院破天荒全票通过法案,特朗普展开“总统发言”

boss外传
2024-09-30 18:35:03
中国大使馆,第二次提醒:中国公民尽快回国!这次真要大打了?

中国大使馆,第二次提醒:中国公民尽快回国!这次真要大打了?

利刃号
2024-09-30 10:02:29
天呐!马拉松选手比赛时月经到访,鲜血顺着大腿流了下来

天呐!马拉松选手比赛时月经到访,鲜血顺着大腿流了下来

农村玲子v
2024-09-29 23:00:31
杨毅团队回应朱芳雨:走着瞧,输了买10件广东队正版球衣+道歉

杨毅团队回应朱芳雨:走着瞧,输了买10件广东队正版球衣+道歉

体育哲人
2024-09-30 23:33:29
10月份以色列直攻伊朗的可能性很大,尤其哈马斯选情向好的情况

10月份以色列直攻伊朗的可能性很大,尤其哈马斯选情向好的情况

邵旭峰域
2024-09-30 11:11:29
开战要先送权贵上路

开战要先送权贵上路

求实处
2024-09-29 22:18:05
低调!格瓦迪奥尔开高尔夫8来到训练场,价值37.5万-47万元

低调!格瓦迪奥尔开高尔夫8来到训练场,价值37.5万-47万元

懂球帝
2024-09-30 20:11:25
军事 | 中东这战局,以色列打法真彻底变了吗?未必!

军事 | 中东这战局,以色列打法真彻底变了吗?未必!

新民周刊
2024-09-30 09:07:46
又一支歼7部队换装 中国空军正在加紧退役二代机 2027年或全部淘汰

又一支歼7部队换装 中国空军正在加紧退役二代机 2027年或全部淘汰

文雅笔墨
2024-09-30 23:10:11
为躲避卫星残骸,多地发布撤离通知!卫星残骸为何会落在居民区?

为躲避卫星残骸,多地发布撤离通知!卫星残骸为何会落在居民区?

奇点使者
2024-09-30 17:15:03
日本30年都走不出的困境,中国3天就走出来了

日本30年都走不出的困境,中国3天就走出来了

谈芯说科技
2024-09-28 21:43:52
A股:刚刚,央行再明确利好!林园:A股涨到4500点才是牛市起点!

A股:刚刚,央行再明确利好!林园:A股涨到4500点才是牛市起点!

户外钓鱼哥阿旱
2024-09-30 18:44:42
只会甩锅!曼联0:3完败热刺,滕哈赫赛后采访4句话让人惊掉下巴!

只会甩锅!曼联0:3完败热刺,滕哈赫赛后采访4句话让人惊掉下巴!

田先生篮球
2024-09-30 16:17:53
唐斯现身纽约 头戴尼克斯帽子手拎两瓶啤酒笑容满面地上车

唐斯现身纽约 头戴尼克斯帽子手拎两瓶啤酒笑容满面地上车

雷速体育
2024-09-30 22:18:09
就怕中国断货!美国对华加征关税已经落地,中国早就发现“漏洞”

就怕中国断货!美国对华加征关税已经落地,中国早就发现“漏洞”

古今历史记
2024-09-30 11:57:40
洲际导弹打完没几天,中国另一股战略力量,把压力送到了美国本土

洲际导弹打完没几天,中国另一股战略力量,把压力送到了美国本土

蒋福伟
2024-09-30 16:13:32
绕了一圈,黎巴嫩爆炸的寻呼机制造商,还是回到了以色列身上

绕了一圈,黎巴嫩爆炸的寻呼机制造商,还是回到了以色列身上

利刃号
2024-09-30 09:39:42
又一演员离世!前一天还在拍戏,第二天就“长跪不起”

又一演员离世!前一天还在拍戏,第二天就“长跪不起”

三公子娱乐丫
2024-09-29 14:21:07
马龙采访被两儿子打断,调皮小儿子蹲地上说:Hello爸爸!

马龙采访被两儿子打断,调皮小儿子蹲地上说:Hello爸爸!

大眼瞄世界
2024-09-30 22:13:28
2024-10-01 05:28:49
知新了了
知新了了
专注于新知、科普的传播
3246文章数 2168关注度
往期回顾 全部

科技要闻

最赚的AI公司钱也不够花 OpenAI决心"营利"

头条要闻

上海一男子在超市持刀伤人致3死15伤 已被当场抓获

头条要闻

上海一男子在超市持刀伤人致3死15伤 已被当场抓获

体育要闻

曼联0-3热刺:这个滕,可能真要保不住了

娱乐要闻

王楚然,悄无声息中成了年度大赢家

财经要闻

暴涨天量!A股领涨全球 你回本了吗?

汽车要闻

拒绝平庸 深蓝S05是台更有范儿的家用SUV

态度原创

健康
房产
艺术
手机
时尚

花18万治疗阿尔茨海默病,值不值?

房产要闻

国庆到啦!快来查收你的买楼大礼包

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

手机要闻

快于友商!vivo X200系列突然官宣,关键配置基本没悬念了

刘令姿:静谧式新性感

无障碍浏览 进入关怀版