网易科技10月8日消息,刚刚, 2024年诺贝尔物理学奖公布。约翰·霍普菲尔德 (John J. Hopfield) 和杰弗里·辛顿 (Geoffrey E. Hinton)被授予奖项,“以表彰他们为利用人工神经网络进行机器学习做出的基础性发现和发明”。
他们的研究为现代人工智能奠定了重要的理论基础,使得计算机能够模拟人类的记忆和学习过程。
此次诺贝尔物理学奖的授予,标志着人工智能研究特别是机器学习和神经网络领域的重要性获得了全球最高的学术认可。霍普菲尔德和辛顿的研究不仅极大地推动了现代计算技术的发展,还跨越了物理学、计算机科学与神经科学的学科界限,影响深远。
约翰·霍普菲尔德因其提出的“霍普菲尔德网络”而闻名,这一框架能够存储并重建信息,成为早期人工神经网络的一个重要模型。霍普菲尔德的工作将神经网络引入了记忆和模式识别领域,启发了后来的深度学习技术。他的研究不仅推动了神经网络的早期发展,还帮助人们从全新视角理解大脑的工作原理。
杰弗里·辛顿的贡献则集中在反向传播算法的开发上,这是现代神经网络训练中的关键技术。反向传播允许人工神经网络在处理数据时自动调整其内部权重,从而自主学习和发现数据中的复杂模式。这项技术对今天的深度学习领域至关重要,广泛应用于语音识别、图像处理和自然语言理解等关键人工智能应用。(袁宁)
以下内容来自诺贝尔奖官方介绍:(致敬AI学者,本介绍由AI翻译,网易进行校对)
2024年诺贝尔物理学奖——科普背景
他们利用物理学在信息中寻找模式
今年的诺贝尔物理学奖得主利用物理学工具,构建了一些方法,为当今强大的机器学习奠定了基础。约翰·霍普菲尔德(John Hopfield)创建了一种能够存储和重构信息的结构。杰弗里·辛顿(Geoffrey Hinton)发明了一种可以独立发现数据中属性的方法,这对现如今的大型人工神经网络至关重要。
许多人已经体验到计算机可以在语言之间翻译、解释图像,甚至进行合理的对话。或许不太为人所知的是,这类技术长期以来一直对研究很重要,包括对大量数据的分类和分析。过去十五到二十年间,机器学习的开发取得了爆炸性的发展,它采用了一种名为“人工神经网络”的结构。如今,当我们谈论人工智能时,这通常就是我们指的技术。
虽然计算机无法思考,但机器如今能够模仿诸如记忆和学习等功能。今年的诺贝尔物理学奖得主正是帮助实现这一点的人。他们利用物理学中的基本概念和方法,开发了能够使用网络结构处理信息的技术。
模仿大脑
人工神经网络使用整个网络结构来处理信息,其灵感最初源于对大脑如何工作的理解。20世纪40年代,研究人员开始思考大脑中神经元和突触网络背后的数学原理。另一部分启示来自心理学,神经科学家唐纳德·赫布(Donald Hebb)提出了关于学习是如何发生的假设,认为当神经元协同工作时,它们之间的连接会得到加强。
随后,这些想法被应用于通过计算机模拟构建人工神经网络。在这些模拟中,大脑中的神经元被模仿为赋予不同数值的节点,而突触则由节点之间的连接来表示,这些连接可以变得更强或更弱。赫布的假设至今仍被用于更新人工网络的基本规则之一,这一过程被称为“训练”。
联想记忆
想象一下你试图回忆一个你很少使用的词,比如常见于电影院和演讲厅的倾斜地板的术语。你在记忆中搜寻,你可能会想到“斜坡”(slope)……也许是“坡度”(gradient)?不对,应该是“梯坡”(rake),就是它!
这种通过相似词语搜索正确词语的过程类似于1982年物理学家约翰·霍普菲尔德发现的联想记忆。霍普菲尔德网络能够存储模式,并有方法在接收到不完整或稍微扭曲的模式时,找到最接近的存储模式。
霍普菲尔德曾运用他的物理学背景研究分子生物学中的理论问题。在一次神经科学会议上,他接触到了大脑结构的研究并深受启发,开始思考简单神经网络的动态。当神经元协同工作时,它们可以产生新的强大特性,这些特性在单独观察网络的各个部分时是看不出来的。
霍普菲尔德网络的工作原理
霍普菲尔德网络通过节点和连接来构建,每个节点可以储存独立的数值——在霍普菲尔德的初步研究中,这些数值可以是0或1,类似黑白图片中的像素。
霍普菲尔德用一种类似于物理学中自旋系统的能量属性描述了网络的整体状态。能量通过一个公式计算,该公式包含了节点的所有数值以及它们之间的连接强度。网络通过输入一个图像来进行编程,节点被赋予黑(0)或白(1)的值,然后使用能量公式调整网络的连接,使所存储的图像能量较低。当另一个模式被输入网络时,有一条规则逐一检查节点,如果节点的值改变后能量下降,则改变该节点的颜色。这个过程一直持续到没有进一步改进的可能为止,最终网络往往会再现它曾训练过的原始图像。
网络保存图像在一个“景观”中
霍普菲尔德构建的网络中的节点通过不同强度的连接相互连接。每个节点可以存储一个独立的数值——在霍普菲尔德的最初研究中,这些数值可以是0或1,类似黑白图片中的像素。
霍普菲尔德用一个类似物理学中自旋系统能量的属性来描述网络的整体状态。通过一个公式计算能量,该公式涉及节点的所有数值以及它们之间连接的强度。网络通过输入一个图像来进行编程,节点被赋予黑(0)或白(1)的数值。然后使用能量公式调整网络的连接,使得保存的图像具有较低的能量。当网络输入一个新模式时,它会依次检查每个节点,并根据能量是否降低来决定是否改变节点的值。如果改变一个黑像素为白像素能够降低能量,它就会发生变化。这个过程一直持续到无法再找到进一步的改进为止。当达到这个点时,网络通常会再现它训练过的原始图像。
如果仅仅保存一个模式,或许这并不显得十分特别。你可能会想,为什么不直接保存图像本身,然后与输入图像进行比较呢?霍普菲尔德的方法特别之处在于,它可以同时保存多个图像,并且网络通常能够区分这些图像。
霍普菲尔德将网络寻找存储状态比作在山峰和山谷的景观中滚动一个小球,球的移动会因摩擦而减缓。如果小球从某个特定位置释放,它会滚动到最近的谷底并停在那里。同样,当网络接收到一个接近存储模式的输入时,它会不断“向前滚动”,直到到达能量景观中的某个谷底,从而找到最接近的存储模式。
霍普菲尔德网络能够重构包含噪声或部分丢失的数据。
使用十九世纪物理学进行分类
记住一个图像是一回事,但解释图像中描绘的内容则需要更多的技巧。
即使是很小的孩子也可以自信地指出不同的动物,比如狗、猫或松鼠。虽然有时他们可能会出错,但很快就能够几乎每次都正确。孩子们不需要看到任何关于物种或哺乳动物的图表或解释,通过遇到几种动物的例子,他们头脑中自然而然地将这些类别整理好。
当霍普菲尔德发表关于联想记忆的文章时,杰弗里·辛顿正在美国匹兹堡的卡内基梅隆大学工作。他早期学习了实验心理学和人工智能,并思考机器是否可以像人类一样处理模式,自己发现分类并解释信息。与同事特伦斯·塞诺夫斯基(Terrence Sejnowski)一起,辛顿从霍普菲尔德网络开始,并使用统计物理学的想法构建了一些新的东西。
统计物理学描述了由许多相似元素组成的系统,比如气体中的分子。很难或几乎不可能追踪气体中每个单独的分子,但可以通过集合来确定气体的总体性质,比如压力或温度。通过统计物理学可以分析系统中各个状态的联合可能性,并计算它们发生的概率。一些状态比其他状态更可能发生,这取决于可用能量的多少。这些能量的分布可以用19世纪物理学家路德维希·玻尔兹曼的方程来描述。辛顿的网络采用了这一方程,该方法于1985年以“玻尔兹曼机”的名字发表。
识别同类型的新例子
玻尔兹曼机通常使用两种不同类型的节点。一组节点是可见节点,信息输入其中。另一组是隐藏节点,它们的值和连接也影响整个网络的能量。
该机器通过逐个更新节点值的规则来运行,最终机器会进入一种状态,在这种状态下,节点的模式可以改变,但网络整体的属性保持不变。根据网络的能量方程,每个可能的模式都会有一个特定的概率。当机器停止运行时,它会创建一个新的模式,这使玻尔兹曼机成为生成模型的早期实例之一。
经过训练的玻尔兹曼机可以识别出它从未见过的信息中的熟悉特征。就像你第一次见到朋友的兄弟姐妹时,可以立即看出他们的亲属关系。同样,玻尔兹曼机能够识别出完全新的例子,只要它属于训练数据中的某一类别,并将其与不相似的材料区分开来。
不同类型的网络
霍普菲尔德网络、玻尔兹曼机以及受限玻尔兹曼机有一些重要区别。
- 霍普菲尔德网络是一个联想记忆网络,所有节点彼此连接,信息在所有节点之间输入和读取。
- 玻尔兹曼机通常由两层构成,信息通过可见节点层输入和读取。隐藏节点层影响整个网络的运作。
- 受限玻尔兹曼机则没有同一层节点之间的连接。它们通常以链式方式使用,一个接一个。训练完第一个受限玻尔兹曼机后,隐藏节点的内容会被用于训练下一个机器,依此类推。
玻尔兹曼机可以通过示例学习,而不是通过明确的指令。它通过更新网络中连接的值来进行训练,以确保训练时输入到可见节点的示例模式在机器运行时具有最高的发生概率。如果在训练过程中重复某一模式,该模式的发生概率会更高。训练还会影响输出与训练模式相似的新模式的概率。
经过训练的玻尔兹曼机能够识别它以前未见过的特征。就像见到朋友的兄弟姐妹时,你可能会立即看出他们的亲属关系。类似地,玻尔兹曼机可以识别属于训练材料中的某一类的新例子,并区分出与其不相似的材料。
机器学习——今天与明天
由于约翰·霍普菲尔德和杰弗里·辛顿从1980年代开始的贡献,他们为大约在2010年左右兴起的机器学习革命奠定了基础。
我们现在所看到的发展得益于大量用于训练网络的数据以及计算能力的巨大提升。今天的人工神经网络往往非常庞大,由许多层组成。这些被称为深度神经网络,训练方式称为深度学习。
简要回顾霍普菲尔德在1982年发表的关于联想记忆的文章,可以对这种发展有一些体会。在他的文章中,他使用了一个包含30个节点的网络。如果所有节点彼此连接,则有435个连接。节点有它们的数值,连接有不同的强度,总共有不到500个参数需要追踪。他还尝试了一个100个节点的网络,但由于当时使用的计算机限制,计算起来非常复杂。如今的大型语言模型相比之下规模庞大得多,它们的网络可以包含超过一万亿个参数(即一百万的百万)。
目前,许多研究人员正在开发机器学习的应用领域。哪一领域最终最具可行性还有待观察,同时围绕这项技术的发展和使用也展开了广泛的伦理讨论。
由于物理学为机器学习的发展提供了工具,因此有趣的是,物理学作为一个研究领域也在从人工神经网络中受益。机器学习早已在一些我们熟悉的物理学诺贝尔奖领域中使用,如利用机器学习来筛选和处理发现希格斯粒子所需的大量数据。其他应用还包括减少测量黑洞碰撞产生的引力波中的噪声,或搜索系外行星。
近年来,这项技术还开始用于计算和预测分子和材料的属性——比如计算蛋白质分子的结构,这决定了它们的功能,或推断哪些新材料可能拥有最适合用于更高效太阳能电池的特性。
约翰·霍普菲尔德
1933年生于美国伊利诺伊州芝加哥。1958年获得美国康奈尔大学博士学位。现任职于美国普林斯顿大学教授。
杰弗里·辛顿
1947年生于英国伦敦。1978年获得英国爱丁堡大学博士学位。现任职于加拿大多伦多大学教授。
瑞典皇家科学院决定将2024年诺贝尔物理学奖授予:
“他们为实现使用人工神经网络进行机器学习的基础性发现和发明。”