网易首页 > 网易号 > 正文 申请入驻

刚刚,2024 图灵奖得主正式官宣,ChatGPT 和 DeepSeek 都曾受益于他们

0
分享至

   就在刚刚, 计算机界的诺贝尔奖——图灵奖得主正式官宣。

   美国计算机协会(ACM)宣布,Andrew Barto 和 Richard Sutton 荣获 2024 年 ACM A.M. 图灵奖,以表彰他们在强化学习领域奠定的概念与算法基础。

   ACM A.M. 图灵奖是计算机领域的最高荣誉奖项,由 ACM 于 1966 年设立,旨在表彰对计算机技术做出持久和重大贡献的个人。

   该奖项以计算理论奠基人、英国数学家艾伦·图灵命名,奖金高达 100 万美元,由 Google 公司提供资助。

   从 20 世纪 80 年代起, Barto 和 Sutton 通过一系列论文提出了强化学习的核心思想,构建了其数学基础,并开发了关键算法,使其成为智能系统研究中最重要的方法之一。

   值得一提的是,被誉为「强化学习之父」的 Richard Sutton,曾是 Barto 的博士及博士后学生,两人的师生合作成就了这一领域的基石。

   目前,Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学系的荣休教授。而 Sutton 则在阿尔伯塔大学担任计算机科学教授,同时也是 Keen Technologies 的研究科学家。

   什么是强化学习?

   AI 领域的核心目标是构建智能体(agent),即能够感知环境并采取行动的实体。 而强化学习(Reinforcement Learning,RL),正是智能体根据环境反馈的奖励信号,学习如何做出更优决策的过程。

   简单来说,就像训练宠物一样——好的行为给予奖励,从而增强这种行为的出现概率。

   这一学习理念由来已久。

   早在 1950 年,图灵本人在其著名论文《计算机机器与智能》中就探讨了基于奖励和惩罚的机器学习方法。几年后,Arthur Samuel 开发了能通过自我对弈学习的跳棋程序,但随后几十年,这一方向的进展相当有限。

   直到 20 世纪 80 年代初,受心理学研究的启发,Barto 和他的博士生 Sutton 开始将强化学习正式确立为一个通用问题框架,为这一领域的发展奠定了基础。

   他们借鉴了马尔可夫决策过程(Markov Decision Processes,MDPs)提供的数学基础。 在 MDP 框架下,智能体在一个随机环境中做出决策,每次状态转移后都会收到一个奖励信号,并以最大化长期累积奖励为目标。

   传统的 MDP 理论假设智能体完全了解环境和奖励机制。

   而强化学习(RL)框架则允许智能体在未知环境和未知奖励的情况下进行学习。这种对信息的最小依赖性,加上 MDP 框架的通用性,使 RL 算法可以广泛应用于各种问题,下面将进一步介绍其应用。

   Barto 和 Sutton 及其合作者共同开发了许多强化学习的基本算法,其中最重要的贡献之一是时序差分学习(temporal difference learning),它在奖励预测问题上取得了重要突破。

   此外,他们还提出了策略梯度方法(policy-gradient methods),并探索了神经网络在学习函数表示中的应用。他们还设计了结合学习与规划的智能体结构,证明了智能体在学习环境知识后进行规划的价值。

   除了算法贡献,他们合著的教材《强化学习:导论》(Reinforcement Learning: An Introduction,1998)同样具有深远影响。这本书至今仍是该领域的标准参考文献,被引用超过 75000 次,成为该领域标准参考文献,培养了无数研究者。

   尽管基础理论早在几十年前就已提出,但强化学习的实际应用在过去 15 年才取得重大突破。

   这一进展主要源于强化学习与深度学习(由 2018 年图灵奖得主 Bengio、Hinton 和 LeCun 开创)的结合,催生了深度强化学习技术。没错,就是你所认知的 AI 教父——Hinton。

   深度强化学习技术最具代表性的成功案例莫过于 AlphaGo 在 2016 年和2017年连续战胜世界顶级围棋选手

   近年来,另一项重大突破是 ChatGPT 的诞生。

   ChatGPT 是一个大语言模型(LLM),其训练分为两个阶段,其中第二阶段采用了一种名为人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)的方法,使模型能够更好地符合人类的期望。

   DeepSeek 也在其模型开发中广泛使用了强化学习技术。

   DeepSeek-R1-Zero 是一种完全基于大规模强化学习训练的模型,没有经过监督微调(SFT)作为初步步骤。这种模型展示了强大的推理能力,能够通过增加推理时间来解决复杂的任务。

   此外,DeepSeek 还引入了群体相对策略优化(GRPO)技术,通过强化学习与组内相对奖励机制优化模型。这种方法使得模型在数学推理、代码生成等复杂任务中表现出类人的逻辑推理能力

   强化学习的应用还涵盖了多个领域,包括网络拥塞控制、芯片设计、互联网广告优化、全球供应链优化、提升聊天机器人的行为和推理能力以及改进计算机科学中的经典问题,如矩阵乘法算法等。

   最终,这项最初受神经科学启发的技术,如今反过来为神经科学研究提供了新的见解。包括 Barto 在内的研究表明,某些强化学习算法实际上是对人脑多巴胺系统运作机制的最佳解释之一,加深了我们对大脑学习过程的理解。

   ACM 主席 Yannis Ioannidis 评价道:

   Barto 和 Sutton 的研究展示了跨学科方法在解决长期难题方面的巨大潜力。从认知科学、心理学到神经科学等多个领域的研究,激发了强化学习的诞生。而强化学习不仅奠定了人工智能领域的一些最重要突破的基础,还让我们对大脑的运作机制有了更深入的认识。

  Barto 和 Sutton 的贡献不仅仅是一个过渡阶段的成果,而是一个仍在持续发展的领域。强化学习仍在不断进步,不仅推动计算机科学的发展,也为许多其他学科带来了无限可能。

  因此,我们授予他们计算机领域最具影响力的奖项,实至名归。

   在 1947 年的一次演讲中,艾伦·图灵曾说:「我们想要的是一台能够从经验中学习的机器。」

   对此,Google 高级副总裁 Jeff Dean 则表示:

   Barto 和 Sutton 开创的强化学习,正是对图灵这一愿景的直接回应。他们的研究成为过去几十年人工智能进步的关键。

  他们开发的工具仍然是当前人工智能浪潮的核心支柱,推动了重大技术突破,吸引了大批年轻研究者,并驱动了数十亿美元的投资。强化学习的影响力还将持续扩展至未来。

  Google 很自豪能够赞助 ACM A.M. 图灵奖,以表彰那些塑造了改变我们生活的技术的杰出个人。

   获奖者简介

   Andrew G. Barto

   Andrew Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学系的荣休教授。他于 1977 年以博士后研究员身份加入 UMass Amherst,随后担任过副教授、教授及系主任等多个职务。

   Barto 在密歇根大学获得数学学士学位(荣誉),并在该校继续攻读计算机与通信科学专业,获得硕士和博士学位。

   Barto 曾荣获多项荣誉与奖项,包括马萨诸塞大学神经科学终身成就奖、国际人工智能联合会议(IJCAI)研究卓越奖、IEEE 神经网络学会先锋奖、IEEE 会士以及美国科学促进会(AAAS)会士。

   Richard S. Sutton

   Richard Sutton 是阿尔伯塔大学计算机科学系的教授,同时也是 Keen Technologies(总部位于美国得克萨斯州达拉斯的通用人工智能公司)的一名研究科学家,并担任阿尔伯塔机器智能研究所(Amii)的首席科学顾问。

   2017 年至 2023 年间,Sutton 曾在 DeepMind 担任杰出研究科学家。

   在加入阿尔伯塔大学之前,他曾于 1998 年至 2002 年在新泽西州弗洛勒姆帕克的 AT&T 香农实验室人工智能部门担任首席技术职员。

   Sutton 与 Andrew Barto 的合作始于 1978 年,当时他在马萨诸塞大学阿默斯特分校攻读博士学位,Barto 是他的博士及博士后导师。

   Sutton 先在斯坦福大学获得心理学学士学位,随后在马萨诸塞大学阿默斯特分校获得计算机与信息科学硕士和博士学位。

   Sutton 曾荣获多项荣誉,包括 IJCAI 研究卓越奖、加拿大人工智能协会终身成就奖,以及马萨诸塞大学阿默斯特分校的卓越研究成就奖。此外,他还是英国皇家学会会士、美国人工智能促进会(AAAI)会士,以及加拿大皇家学会会士。

   附上参考链接:
https://amturing.acm.org/
https://www.acm.org/media-center/2025/march/turing-award-2024
https://x.com/TheOfficialACM/status/1897225672935735579

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
香蕉被点名!医生提醒:高血糖患者常吃香蕉,很快或迎来这些后果

香蕉被点名!医生提醒:高血糖患者常吃香蕉,很快或迎来这些后果

王二哥老搞笑
2026-03-31 16:20:20
“这次穿得算保守了”,女老师短裙配蕾丝袜,学生上课头都不敢抬

“这次穿得算保守了”,女老师短裙配蕾丝袜,学生上课头都不敢抬

妍妍教育日记
2026-03-21 10:05:03
特朗普:各国应自行去霍尔木兹海峡“抢石油”

特朗普:各国应自行去霍尔木兹海峡“抢石油”

界面新闻
2026-03-31 19:29:58
崩得最彻底的专业,网友哭诉:孩子600多分进的,如今找不到工作

崩得最彻底的专业,网友哭诉:孩子600多分进的,如今找不到工作

黯泉
2026-03-28 20:41:06
青岛楼市起风了!青岛楼市崂山区待售二手房从6783套变成了6775套

青岛楼市起风了!青岛楼市崂山区待售二手房从6783套变成了6775套

有事问彭叔
2026-03-30 19:01:39
比尔盖茨:下一代发电技术已经近在眼前

比尔盖茨:下一代发电技术已经近在眼前

快科技
2026-03-31 13:33:19
娜扎真空上阵上海活动,梳丸子头步步生莲冠压群芳,才懂性感尤物

娜扎真空上阵上海活动,梳丸子头步步生莲冠压群芳,才懂性感尤物

八斗小先生
2026-03-31 10:38:39
定了!张雪峰公司换了掌舵人,老婆没接管,也没外聘,而是他!承诺女儿长大让她接班!

定了!张雪峰公司换了掌舵人,老婆没接管,也没外聘,而是他!承诺女儿长大让她接班!

山东教育
2026-03-31 10:40:27
米莱高调宣布:我将阿根廷的贫困率降低了27%,全靠尊重产权和市场经济

米莱高调宣布:我将阿根廷的贫困率降低了27%,全靠尊重产权和市场经济

风向观察
2026-03-30 14:33:04
47岁邓超在上海体育馆打篮球被偶遇,他现实中真人看起来好年轻

47岁邓超在上海体育馆打篮球被偶遇,他现实中真人看起来好年轻

手工制作阿歼
2026-03-31 12:44:37
全红婵:我改变了全家人命运!也让全家人被骂 禁止弟弟妹妹继续练跳水

全红婵:我改变了全家人命运!也让全家人被骂 禁止弟弟妹妹继续练跳水

阿废冷眼观察所
2026-03-31 18:58:54
差120票!联大压倒性投票表决,中国审判美以暴行,现场激烈对峙

差120票!联大压倒性投票表决,中国审判美以暴行,现场激烈对峙

书纪文谭
2026-03-31 12:32:32
瑞银:预计到年底金价将逐渐回落 未来几年将走低

瑞银:预计到年底金价将逐渐回落 未来几年将走低

财联社
2026-03-31 13:54:17
湖人骑士明日伤病出炉!湖人核心解禁!骑士俩锋线缺席!两人复出

湖人骑士明日伤病出炉!湖人核心解禁!骑士俩锋线缺席!两人复出

画夕
2026-04-01 04:45:26
净胜21分,一人登场6分钟输7分,这就是曾被郭士强选中的准国手

净胜21分,一人登场6分钟输7分,这就是曾被郭士强选中的准国手

弄月公子
2026-03-31 22:06:09
伊朗最大岛屿遭美以袭击,致8人死亡,位于霍尔木兹海峡北侧

伊朗最大岛屿遭美以袭击,致8人死亡,位于霍尔木兹海峡北侧

鲁中晨报
2026-03-31 09:57:01
歼-35是低配版F-35?西方媒体公布涡扇-19数据,推力仅为F135一半

歼-35是低配版F-35?西方媒体公布涡扇-19数据,推力仅为F135一半

利刃号
2026-03-31 21:10:10
爆大冷!10人意大利倒下,点球大战落败,连续第3次无缘世界杯

爆大冷!10人意大利倒下,点球大战落败,连续第3次无缘世界杯

足球狗说
2026-04-01 05:41:15
45岁李尚宝家中离世,死因未明,一家四口皆已离世,一生未婚

45岁李尚宝家中离世,死因未明,一家四口皆已离世,一生未婚

陈意小可爱
2026-03-31 09:52:46
朱爱勋任江苏省发展和改革委员会党组书记

朱爱勋任江苏省发展和改革委员会党组书记

汲古知新
2026-03-30 13:42:35
2026-04-01 06:32:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6252文章数 26807关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

美军向中东部署第三艘航母 估计将用时两至三周

头条要闻

美军向中东部署第三艘航母 估计将用时两至三周

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

数码
游戏
本地
公开课
军事航空

数码要闻

飞利浦“32M2N8900X“31.5英寸显示器开售,6999元

上一秒还在嘲笑瓦学弟,下一秒就去“抗癌”了

本地新闻

用Color Walk的方式解锁城市春日

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:即使霍尔木兹海峡仍关闭 也愿意结束战争

无障碍浏览 进入关怀版