网易首页 > 网易号 > 正文 申请入驻

LeCun最新万字演讲:纯语言模型到不了人类水平,我们基本已

0
分享至

白小交 整理自 凹非寺量子位 | 公众号 QbitAI

当奥特曼、马斯克、Anthropic CEO都纷纷将AGI实现锚定在2026年前后,LeCun无疑是直接浇了冷水:完全是胡说八道。



[zmoq.gzssp.com)

最新的公开演讲中,他表示,系统要推理、规划和理解物理世界,至少还需要几年甚至十年的时间,这时候人工智能才能达到人类水平。



[npp.6u31.com)

他还透露,现在Meta基本已经放弃纯语言模型,因为,仅通过文本训练,永远不会达到接近人类水平的智能

除此之外,他还谈到当前大模型的局限性、以目标驱动的AI架构,包括利用世界模型进行推理和规划,最后强调了开源AI的重要性。对于未来发展,他提到,最终机器将超越人类智能,但它们将受到控制,因为它们是目标驱动的。

在不改变原意基础上,量子位做了如下整理。

LeCun:“人类级别的人工智能”(一上来,他解释了FAIR中的“F”,不再意味着Facebook,而是代表“基础的”意思)。

让我们来探讨一下人类级别的人工智能,以及我们如何实现它,或者为什么我们可能无法做到这一点。

什么是人类水平的AI?

首先,我们确实需要达到人类水平的人工智能

在未来,大多数人可能会戴上智能眼镜或其他设备,并与它们进行交流。这些设备将集成各种助手功能,可能不仅仅是一个,而是一整套系统。这意味着我们每个人都将拥有一群智能虚拟助手。因此,每个人都将成为“老板”,只不过这些“员工”并非真正的人类。我们需要构建这样的系统,以基本提升人类的智能,让人们变得更具创造力、更高效。

然而,要实现这一目标,我们需要机器能够理解世界、记忆信息、拥有直觉、具备常识、能够进行推理和规划,并且达到与人类相同的水平。

尽管你可能从一些支持者那里听到过不同的观点,但目前的人工智能系统还无法实现这些功能。因此,我们需要开发能够学习并模拟世界基本运作的系统,这些系统需要拥有对世界如何运作的心理模型。实际上,每只动物,包括你的猫,都拥有一个比任何现有人工智能系统都要复杂的模型。

我们需要的系统应该具备持久的记忆能力(这是当前语言模型所缺乏的),能够规划复杂的动作序列(这也是目前的语言模型所做不到的),并且必须是可控和安全的

仅通过文本训练,永远不会达到接近人类水平的智能为此,我曾在两年前一篇论文中提出过一个愿景:目标驱动的人工智能。

FAIR的许多成员都在努力实现这一构想,但一年半前,Meta成立了一个名为GenAI的产品部门,专注于人工智能产品的研发。因此,FAIR现在被重新定位为开发更长期的下一代人工智能系统我们基本上不再专注于语言模型

人工智能的成功,包括语言模型和其他许多系统,在过去五六年里,主要依赖于自监督学习技术。

自监督学习的一种方法是通过损坏再重建恢复。例如,你可以取一段文本,通过删除单词或更改其他单词来损坏它,这可以是文本、DNA序列、蛋白质或其他任何东西,甚至在一定程度上可以是图像。然后,你训练一个大型神经网络来重建完整的、未损坏的输入版本。

这是一个生成模型,因为它试图重建原始信号。



[job.gdrljx.com)

因此,这个红色框就像一个代价函数,它计算输入Y和重建的y之间的距离,这是学习过程中需要在系统中的参数上最小化的内容。在这个过程中,系统学习到输入的内部表示,可以用于各种后续任务。

语言模型就是一个特殊的例子,其架构为只能查看左边的其他标记来预测一个项目、一个标记或一个单词,不能看向未来。

这不是一个新概念,自克劳德·香农以来就一直存在,可以追溯到20世纪50年代。但变化的是,现在我们有巨大的神经网络架构,可以在大量数据上进行训练,由此产生原本没有的特性。

然而,自回归预测有一些主要限制,这里没有真正意义上的推理。另一个限制是,这只适用于以离散对象、符号、标记、单词等形式出现的数据,基本上你可以区分这些数据。

我们仍然缺少一些重要的东西才能达到人类水平的智能

我这里不一定是在谈论人类水平的智能,但即使是你的猫或狗能做的惊人壮举,目前的人工智能系统仍然完全无法做到。10岁的孩子都能学会清理餐桌并装满洗碗机。17岁的孩子可以在大约20小时的练习中学会开车。但现在我们仍然没有L5自动驾驶汽车,我们当然也没有能够清理餐桌并装满洗碗机的家用机器人。



[jet.weizhiqi.com)

这是我们常遇到的莫拉维克悖论,即对我们来说看起来微不足道、我们甚至不认为是智能的事情,对机器来说却非常非常难以做到。但是,像高级复杂的抽象思维,比如操纵语言、下棋,对机器来说似乎很容易。

也许其中一个原因在于,一个语言模型通常在20万亿个token上进行训练。一个token对于一种典型语言来说,平均约为四分之三个单词,对应是1.5×10的13次方个单词、6×10的13次方个字节。我们任何人要读完所有这些文本,大约需要几十万年。这基本上是互联网上公开可用的所有文本总量。

一个四岁人类孩子清醒16000小时,200万条视神经纤维进入我们的大脑。每条纤维大约每秒携带一个字节,也许是每秒半字节,数据量大约是10的14次方个字节。

所以,一个四岁孩子看到的视觉数据与最大的语言模型在整个互联网上公开可用的文本上训练的数据量一样多。

从这当中能得出这些结论:首先,仅通过在文本上训练,我们永远不会达到接近人类水平的智能;其次,视觉信息非常冗余。每根视神经纤维每秒传输一个字节的信息,与视网膜中的光感受器相比,这已经实现了100:1的压缩率。随后这些信息进入大脑,并在那里被扩展了大约50倍。

冗余实际上是自监督学习所必需的。自监督学习只能从存在冗余的数据中学习到有用信息。如果数据经过高度压缩,这意味着它几乎变成了随机噪声,你将无法从中学习到任何东西。

因此,我们将不得不通过让系统基本上观看视频或在现实世界中进行体验来训练它,以学习常识和物理知识。

放弃机器学习的四大支柱所以再来说说这个目标驱动架构是什么,它与语言模型或前馈神经网络等有着显著不同。因为在推理过程中不仅仅是神经网络在起作用,实际上它运行的是一个优化算法。

从概念上讲,它的运作方式是这样的:前馈过程是指你观察到一个输入,通过感知系统运行,比如通过一系列的神经网络层,并产生一个输出的过程。

对于任何一个单一输入,通常只有一个输出,但在很多情况下,对于一个感知输入,可能存在多种可能的输出解释。你需要的是不仅仅计算单一函数,而是能够处理单个输入对应多个输出的映射过程。



[zmoq.wabhkj.com)

实现这一点的唯一方法是通过隐函数,基本上就是像这里的目标函数,即右侧的红色框所示,它主要用来衡量输入和提议的输出之间的兼容性,然后通过寻找与输入最匹配的输出值来计算最终输出。

你可以将这个目标想象成某种能量函数,并通过最小化这个能量来相对于输出进行优化。你可能会有多个解决方案,也可能会有一些方法来遍历这些多个解决方案。



[rain.fv5a.com)

人类的感知系统就是这样做的,如果你对一个特定的感知有多种解释,你的大脑会自发地循环遍历这些解释。

事实上这个概念非常悠久,它的历史已经超过60年。它基于优化控制理论中的一个分支——模型预测控制。在这一领域中,你可以利用你的世界模型来计算一系列控制指令的效果,然后对这些指令序列进行优化,以确保运动按照你的预期进行。所有传统的机器人运动规划都是采用这种方法,这并不是什么新鲜事物。

这里的新东西是我们要学习世界模型、能将现实世界抽象表示的感知系统。你可以构建一个具有所有这些组件的整体AI系统。



[rain.ex3k.com)

因此,如果你的行动不是一次性的,而是一个序列,并且你的世界模型是一个真实的系统,它能够告诉你在时间点T的世界状态,以及你可能采取的某个行动,预测出在时间点T+1的世界状态,那么你会想要预测在这种情况下,两个行动序列将导致什么结果。你可以通过多次运行你的世界模型来实现这一点。

然后通过反向传播和基于梯度的优化方法来找出将最小化代价的两个行动。这就是模型预测控制的基本原理。另外,世界通常不是完全确定的,你可能需要使用潜在变量来输入到你的世界模型中。



[zmoq.maybanthit.com)

更有趣的是,智能系统目前还无法解决,但人类可以轻松做到,甚至动物也能做到的事情,那就是分层规划

比如,你计划一段从纽约前往巴黎的旅行。理论上你可以利用你对世界、自己身体的理解,以及你对从这里到巴黎的整体世界布局的认知,来规划整个旅程,包括低层次的肌肉控制。但如果细化到考虑每10毫秒的肌肉控制步骤,那将是一个巨大的数字。

因此实际上人类采用的是分层规划的方式。你先在非常高的层次上进行规划,然后逐步细化,最后在通过低级肌肉控制来完成的具体行动。



[jaw.oajian.com)

这对AI系统的确是个巨大的挑战。我过去一直在试图弄清楚婴儿在什么年龄学习关于世界的基本概念,比如像面部跟踪、生物运动等,这在他们学习语言和互动之前就已经发生了。但像重力、惯性、守恒、动量这些实际上大约在婴儿九个月左右才注意到。



[npp.6q58.com)

过去像通过预测文本来预测视频中的像素这种方法完全失败了,这里我们提出了一个新的解决方案,叫做联合嵌入预测架构(JEPA),也就是放弃预测像素,学习世界上正在发生的事情的抽象表示,然后在那个表示空间中进行预测。两个嵌入将被破坏的版本X送入编码器,将Y送入编码器,然后训练系统从X的表示中预测Y的表示。

那么如何做到这一点呢?

如果单纯使用梯度下降和反向传播这样的方法来训练系统,以减少预测误差,那么系统可能会失效。它可能会学习到一个恒定的表示,使得预测变得轻而易举,但却失去了信息量。

因此,我想让你记住的是,尝试重建预测器的生成架构(例如自动编码器、生成对抗网络等)与在表示空间中进行预测的联合架构之间的区别。

我认为未来在于那些联合架构。我们有大量的经验证据表明,要学习图像的良好表示,最好的方法是使用那些联合架构。

所有尝试通过重建来学习图像表示的方法都不是最佳选择,它们的成效有限。尽管有些大型项目声称这些方法有效,但实际上并非如此。真正能够带来最佳性能的是右侧的架构。



[jk.kyogakukan-t.com)

这其实与我们在智能领域所做的非常相似:找到事物或现象的良好表示,以便进行预测。这确实是科学的本质。

举个例子,如果你想预测一颗行星的轨道,行星是一个非常复杂的物体,但是你只需要知道六个参数就能实现预测:三个位置坐标[rain.g2h5.com)和三个速度向量,仅此而已。

那么接下来的问题是,我们如何训练这样一个系统。

[jet.jxby5188.com)为了防止系统崩溃,一种方法是设计一种代价函数,如果你可以测量来自编码器的表示中的信[rain.p-6b.com)息内容,并尝试最大化信息内容或最小化负信息。你希望训练系统在输入中提取尽可[odre.chachache.cn)能多的信息,同时又要在那个表示空间中最小化预测误差。系统将在尽可能多地提取[job.ktax-blog.com)信息和不提取不可预测的信息之间找到某种平衡。



[road.maddp.com[rain.babnamu.com))

这样,你将得到一个良好的表示,在这个空间中你可以进行预测。

现在,你如何测量信息[zmoq.8bb8.cn)呢?这就是事情变得有些复杂的地方。

我将跳过这个部分。有一种方法可以从基[zmoq.gurukoola.com)于能量的模型和能量函数的训练角度在数学上理解这个问题,但我没有时间深入探讨[rain.cdhtjdsb.com)。

不过基本上我在这里告诉你的是,许多不同于以往认知的事情。

放弃生成模型[odre.go5le.net),转而支持那些联合嵌入预测架构(JEPA);放弃概率模型,转而支持那些基于能量的[zmoq.hffks.com)模型;放弃对比方法。

还有放弃强化学习,这也是我过去十年一直在谈论的。

这些[job.xiumei66.com)都是当今机器学习中最流行的四个主要支柱。因此目前我可能不太受欢迎。



[zmoq.[jaw.xingzd.net)jcbxdc.com)

第一组方法是可以对编码器输出的信息进行估计,从而测[james.ayong99.com)量其信息量。目前有六种已知的方法可以实现这一目标。这里的核心思[job.predreamproject.com)想是防止系统崩溃并只输出常数。

因此,我们要取编码器输出的变量,并确保这些变量有非[rain.i40i.com)零的标准差。你可以在一批样本上将这个要求纳入成本函数中,确保权重不会让变量崩溃[zmoq.fsfrzm.com)成常数。这是相对简单的。

但现在的问题是,系统可能会“作弊”,使得所有[zmoq.dixingwang.com)变量变得相等或高度相关。因此,你必须添加另一个项,即最小化这些变量的协方差矩阵的非对角元素,以确保它们的独立性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏211高校在安徽拿下4000亩地,计划投资30亿元!

江苏211高校在安徽拿下4000亩地,计划投资30亿元!

江苏城市论坛
2024-11-05 23:47:45
女排昏庸主帅 拥第一人惨遭三连败 李盈莹狂轰39分救不了他

女排昏庸主帅 拥第一人惨遭三连败 李盈莹狂轰39分救不了他

厝边人侃体育
2024-11-05 22:30:16
大量人员要求退社保,这种现象应该引起重视!

大量人员要求退社保,这种现象应该引起重视!

逍遥论经
2024-10-30 09:19:26
中美俄护照免签数量断崖:美186国,俄116国,中国令人意外

中美俄护照免签数量断崖:美186国,俄116国,中国令人意外

娱乐圈见解说
2024-11-05 20:52:21
美媒:美国逾20州表示,若在总统选举后收到要求,愿向华盛顿特区派遣国民警卫队

美媒:美国逾20州表示,若在总统选举后收到要求,愿向华盛顿特区派遣国民警卫队

环球网资讯
2024-11-05 13:14:48
刘晓庆事件新进展!警方立案调查,小20多岁前男友报警,聊天曝光

刘晓庆事件新进展!警方立案调查,小20多岁前男友报警,聊天曝光

180°视角
2024-11-05 11:42:39
苹果发布iOS18.2.2,电池优化难以置信,超省电,信号终于完美

苹果发布iOS18.2.2,电池优化难以置信,超省电,信号终于完美

库克啥都聊
2024-11-05 10:24:11
羡慕!男子分享老婆为自己跳舞的视频,网友:商纣王也不过如此!

羡慕!男子分享老婆为自己跳舞的视频,网友:商纣王也不过如此!

猫小狸同学
2024-10-31 14:20:03
王闰秋不甘心,人生怎么这么不如意?

王闰秋不甘心,人生怎么这么不如意?

苗苗情感说
2024-11-05 08:21:46
央视曝光“假机油”!45元出厂价卖400,还能让汽车发动机报废

央视曝光“假机油”!45元出厂价卖400,还能让汽车发动机报废

阿纂看事
2024-11-05 13:58:32
赵今麦也太美了吧,​这腰真细,身材真好!

赵今麦也太美了吧,​这腰真细,身材真好!

人情皆文史
2024-10-06 23:14:18
40分13板10助!主动撩上中国男篮!这可是NBA级别后卫……

40分13板10助!主动撩上中国男篮!这可是NBA级别后卫……

篮球实战宝典
2024-11-05 19:50:33
新华社快讯:以色列总理内塔尼亚胡解除国防部长加兰特职务

新华社快讯:以色列总理内塔尼亚胡解除国防部长加兰特职务

新华社
2024-11-06 02:51:01
广东官宣贝兹利与巴顿离队,外援仅剩莫兰德与沃特,急需补强小外

广东官宣贝兹利与巴顿离队,外援仅剩莫兰德与沃特,急需补强小外

篮球资讯达人
2024-11-05 20:21:14
美国大选前最后一天,候选人都在做什么?哈里斯一天穿5城,特朗普一天跨三州

美国大选前最后一天,候选人都在做什么?哈里斯一天穿5城,特朗普一天跨三州

红星新闻
2024-11-05 11:08:30
39岁曼联新帅率队爆大冷4-1逆转曼城,26岁瑞典神锋风头压哈兰德

39岁曼联新帅率队爆大冷4-1逆转曼城,26岁瑞典神锋风头压哈兰德

侧身凌空斩
2024-11-06 05:53:48
创造总决赛新历史!郑钦文传来喜讯,创下三大纪录

创造总决赛新历史!郑钦文传来喜讯,创下三大纪录

保持热爱0263
2024-11-05 09:31:59
华为内部论坛发相亲帖,毁了三观。加好友第一句:小姐姐“y”么

华为内部论坛发相亲帖,毁了三观。加好友第一句:小姐姐“y”么

蚂蚁大喇叭
2024-11-04 14:53:55
金华女老师事件,照片里确实文静,让人很难想象她会和学生谈恋爱

金华女老师事件,照片里确实文静,让人很难想象她会和学生谈恋爱

人情皆文史
2024-10-31 00:07:22
恰逢美国大选当天,解放军正式公布国之重器,对美传递强烈信号

恰逢美国大选当天,解放军正式公布国之重器,对美传递强烈信号

说天说地说实事
2024-11-05 19:02:27
2024-11-06 07:18:44
电影戏剧
电影戏剧
看清这个世界,然后爱它。
924文章数 45关注度
往期回顾 全部

科技要闻

字节跳动上半年营收直逼Meta:TikTok狂飙

头条要闻

美国一男子因携带信号枪在国会大厦游客中心被捕

头条要闻

美国一男子因携带信号枪在国会大厦游客中心被捕

体育要闻

一个想改变中国足球的日本人

娱乐要闻

周雨彤风波升级!阴阳怪气遭全网怒怼

财经要闻

超配!高盛:AH股未来一年回报率20%

汽车要闻

新款别克世纪将11月12日上市 预售价48.99万起

态度原创

艺术
健康
家居
数码
本地

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

花18万治疗阿尔茨海默病,值不值?

家居要闻

纯粹干净空间 极简米灰色基调

数码要闻

机械师推出 M3 Air 双模办公鼠标:65 克重量,12 天续航,59 元

本地新闻

塞上青城|是课本里的风吹草低见牛羊

无障碍浏览 进入关怀版