网易首页 > 网易号 > 正文 申请入驻

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

0
分享至

新智元报道

编辑:LRST

【新智元导读】Adam优化器是深度学习中常用的优化算法,但其性能背后的理论解释一直不完善。近日,来自清华大学的团队提出了RAD优化器,扩展了Adam的理论基础,提升了训练稳定性。实验显示RAD在多种强化学习任务中表现优于Adam。

ICLR(国际学习表征会议)是机器学习领域三大顶会之一,以推动深度学习基础理论和技术创新著称。每年,ICLR时间检验奖都会授予近十年对深度学习领域产生深远影响的里程碑式论文。

今年这一殊荣花落Adam优化器(Adaptive Moment Estimation),该算法于2014年由OpenAI工程师Diederik Kingma和University of Toronto研究生Jimmy Ba提出。

从计算机视觉到自然语言处理,从强化学习到生成模型,Adam以其卓越的自适应能力,成为当代深度学习模型的「标配」优化器,堪称AI领域的「万金油」。

Diederik Kingma是谷歌的一名研究科学家,曾经是OpenAI初创团队的一员,期间领导了基础算法研究团队。2018年,Kingma跳槽到谷歌,加入Google Brain(现为Google DeepMind),专注于生成式模型研究,包括扩散模型和大型语言模型。他是变分自编码器(VAE)、Adam优化器、Glow和变分扩散模型等工作的主要作者。

Jimmy Ba是深度学习教父Geoffrey Hinton的得意门生,于2018年获得University of Toronto的博士学位。作为Hinton学术家族的核心成员,他在ICLR、NeurIPS等顶级会议发表多篇开创性论文(其中Adam优化器论文引用量已突破21万次),堪称AI领域最具影响力的青年科学家之一。

Adam优化器虽在工程实践中表现优异,但长期以来缺乏对其优异性能的理论解释。

近期,清华大学李升波教授课题组发文 《Conformal Symplectic Optimization for Stable Reinforcement Learning》,解析了这一「黑箱」算法的优化动力学机理。

该课题组的研究发现了神经网络优化过程与共形哈密顿系统演化存在「完美」的数学对偶性,揭示了Adam优化器暗藏的「相对论动力学」和「保辛离散化」本质,并由此提出了训练更加稳定、性能更加优秀的RAD优化器(Relativistic Adaptive Gradient Descent),这一研究工作为神经网络优化动力学的分析及全新算法的设计开辟了新航道。

Adam优化器的历史与算法特点

神经网络的优化主要依赖梯度下降方法。自20世纪50年代随机梯度下降(SGD)首次提出以来,优化算法经历了多次重要演进。从动量方法如SGD-M和NAG,到自适应方法如AdaGrad、RMSprop,优化算法的「演变之战」已持续超过70年。

2014年,Diederik Kingma与Jimmy Ba联合提出了Adam优化器(算法1),将神经网络优化算法的性能向前推进了一大步。该算法的核心设计思想是融合Momentum和RMSProp两大优化方法的优势:

通过指数移动平均计算一阶动量vk+1和二阶动量yk+1,分别估计梯度的一阶矩(即梯度期望)和原始二阶矩(近似于梯度方差)。针对动量零初始化导致的估计偏差,通过引入偏差修正技术,Adam兼具了快速收敛与稳定训练的双重特性。

从算法原理看,Adam优化器通过动态维护一阶动量(方向修正)和二阶动量(步长调节),实现了参数更新的双重自适应:既优化了更新方向,又自动调整了有效学习率,显著加速了网络收敛。其偏差修正机制有效消除了训练初期的估计偏差,确保了参数更新的准确性。

此外,Adam展现出优异的超参数鲁棒性,在大多数场景下无需精细调参即可获得稳定性能。正是这些优势使其成为各类监督学习、强化学习任务的首选优化器。

Adam优化器为何具备如此出色的训练性能?至今仍缺乏对其优化动力学机理的深入解释,这已成为限制新一代神经网络优化算法设计的关键障碍。

梯度下降过程与动力学演化的对偶机制

受中国科学院院士冯康先生和美国国家三院院士M. I. Jordan的研究启发(前者开创了哈密顿算法与保辛离散化理论,后者成功将保辛理论引入最优化领域),清华大学的研究团队提出了一种神经网络优化算法的性能理论解释框架:

第一步,将神经网络的参数优化过程对偶为共形哈密顿系统的状态演化过程,建立参数梯度下降与系统能量耗散之间的内在联系。

第二步,利用保辛机制实现共形哈密顿系统的离散化,将离散系统的优势动态特性映射到神经网络的优化过程,从而完成对算法优化动力学的机理解释。

研究发现,神经网络梯度下降过程与共形哈密顿离散系统的演化呈现高度相似性,通过将网络参数θ对偶为系统状态q,目标函数J(θ)对偶为系统势能U(q),可直接建立二者间的对偶关系。

研究者据此开发了一个全新的网络优化算法开发框架,包含两个核心步骤:

1)动能建模:通过设计合适的动能项T(p)以嵌入期望的动态特性;

2)保辛离散:采用保辛离散方法以精确保持系统的动力学性质。

RAD优化器的设计思路与性能对比

进一步地,研究者将神经网络参数的优化过程建模为多粒子相对论系统状态的演化过程,通过引入狭义相对论的光速最大原理,抑制了网络参数的异常更新速率,同时提供了各网络参数的独立自适应调节能力,从理论上引入了对网络训练稳定性和收敛性等动态特性的保障机制。

这一工作使得研究者提出了既具备稳定动力学特性又适用于非凸随机优化的神经网络优化算法,即RAD优化器(算法2)。

研究发现,当速度系数σ=1且保辛因子ζk取固定小值ε时,RAD优化器将退化为Adam优化器,揭示了Adam优化器的动力学机理,说明了Adam优化器是新提出的RAD优化器的一个特例。

相比于Adam优化器,RAD优化器具有更加优异的长期训练稳定性,这是因为:

1)优化前期:RAD具有类似Adam的快速收敛特性,能够高效定位到最优解的邻域;

2)优化后期:RAD的保辛结构逐渐增强,具备维持共形哈密顿系统动态特性的能力,确保算法具备更加优异的抗干扰能力。

值得注意的是,Adam中的有理因子ε是一个「人为引入」的小常数,用于避免分母为零的数值错误。而RAD的保辛因子ζ与哈密顿系统的「质量×质能」(即m2c2)相关,具有明确的物理根源。

这为之前的经验性发现(即适度增加ε可提升Adam性能)提供了理论性解释:增大ε使得优化过程更加接近原始的动力学系统。该研究成果不仅深化了Adam与动力学系统的本质联系,同时也为分析其他主流自适应优化器(如AdaGrad、NAdam、AdamW等)提供了普适性的框架。

为了评估RAD优化器的性能,研究者在5种主流深度强化学习(DRL)算法(包括DQN、DDPG、TD3、SAC和ADP)和12个测试环境(包括1个CartPole任务、6个MuJoCo任务、4个Atari任务和1个自动驾驶任务)中开展了广泛测试,并与9种主流神经网络优化器(包括SGD、SGD-M、DLPF、RGD、NAG、Adam、NAdam、SWATS和AdamW)进行了比较,结果表明RAD综合性能均排名第一。

特别在图像类标准测试环境Seaquest任务中,RAD性能达到Adam优化器的2.5倍,得分提升了155.1%

参考资料:

[1] Lyu Y, Zhang X, Li S E, et al. Conformal Symplectic Optimization for Stable Reinforcement Learning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2024: 1-15.

[2] Kingma D P, Ba J. Adam: A method for stochastic optimization[C]//3rd International Conference on Learning Representations (ICLR). 2015: 1-11.

[3] Li S E. Reinforcement learning for sequential decision and optimal control[M]. Singapore: Springer Verlag, 2023.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一月八万不够花,李双江“赖”学校不退休,儿子改名出国后再作妖

一月八万不够花,李双江“赖”学校不退休,儿子改名出国后再作妖

一盅情怀
2026-05-16 20:12:47
小米,暴跌43.1%!

小米,暴跌43.1%!

车轱辘话V
2026-05-27 19:32:38
鲁比奥离开印度,留下此行唯一遗憾,中印卖掉美债,美国开始救市

鲁比奥离开印度,留下此行唯一遗憾,中印卖掉美债,美国开始救市

近史博览
2026-05-27 14:10:20
最早发现伟人才华的3人是谁?其中一人:想救国,必重用毛泽东

最早发现伟人才华的3人是谁?其中一人:想救国,必重用毛泽东

那年的春夏
2024-11-15 22:43:54
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
新加坡联合早报急了!警告新加坡人:中国不是你的祖国。

新加坡联合早报急了!警告新加坡人:中国不是你的祖国。

安安说
2026-05-27 11:27:33
她带弟弟进入娱乐圈,没想到如今自己无人问津,弟弟却红透半边天

她带弟弟进入娱乐圈,没想到如今自己无人问津,弟弟却红透半边天

青杉依旧啊啊
2026-05-28 04:00:53
荷兰军机侵犯西沙,中国这次驱离很硬核

荷兰军机侵犯西沙,中国这次驱离很硬核

凤眼论
2026-05-27 22:21:23
不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

冷眼看世界728
2026-05-12 20:46:26
网购时要注意了,“旗舰店”和“官方店”一字之差,天壤地别!

网购时要注意了,“旗舰店”和“官方店”一字之差,天壤地别!

另子维爱读史
2026-05-25 07:55:09
正式官宣!国乒男队主帅王皓上任新岗位,薪资待遇首次被曝光

正式官宣!国乒男队主帅王皓上任新岗位,薪资待遇首次被曝光

洲洲影视娱评
2026-05-27 20:52:01
韩女团出道前被拖去整容,只因新成员太漂亮

韩女团出道前被拖去整容,只因新成员太漂亮

影视情报室
2026-05-27 00:13:14
人民币兑美元汇率升破6.78 美元指数缺乏上行动能 未来人民币走势预计稳中偏强

人民币兑美元汇率升破6.78 美元指数缺乏上行动能 未来人民币走势预计稳中偏强

财联社
2026-05-27 20:49:05
演都不演了!郑钦文法网一轮游仅1天,恶心的事发生,还不止一件

演都不演了!郑钦文法网一轮游仅1天,恶心的事发生,还不止一件

以茶带书
2026-05-27 12:03:38
16岁已是人间尤物,4年换20个男人,找到老实人接盘后收心做人妻

16岁已是人间尤物,4年换20个男人,找到老实人接盘后收心做人妻

傲傲讲历史
2026-05-27 05:23:04
尼泊尔为何愿意放弃7万平方公里,却对372平方公里寸土必争?

尼泊尔为何愿意放弃7万平方公里,却对372平方公里寸土必争?

究竟谁主沉浮
2026-05-27 08:56:11
基辅将被毁灭?俄军图95战轰千里南调,专家评估:大规模轰炸开始

基辅将被毁灭?俄军图95战轰千里南调,专家评估:大规模轰炸开始

混沌录
2026-05-27 21:50:48
3分钟倾家荡产?年入千亿的“精神鸦片”正精准榨干中国人的钱包

3分钟倾家荡产?年入千亿的“精神鸦片”正精准榨干中国人的钱包

大鱼简科
2026-05-13 14:26:55
航天员黎家盈年收入多少?回来后享受什么待遇?

航天员黎家盈年收入多少?回来后享受什么待遇?

混沌录
2026-05-26 22:05:52
“男子结婚22年后发现两儿子非亲生”案未宣判,男子:前妻承认和我堂哥有不正当关系,自己被大儿子当庭辱骂

“男子结婚22年后发现两儿子非亲生”案未宣判,男子:前妻承认和我堂哥有不正当关系,自己被大儿子当庭辱骂

海峡网
2026-05-27 22:59:22
2026-05-28 04:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15321文章数 66892关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

特朗普:伊朗即使放弃高浓缩铀也无法获得解除制裁

头条要闻

特朗普:伊朗即使放弃高浓缩铀也无法获得解除制裁

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

手机
亲子
教育
家居
本地

手机要闻

鸿蒙系统大推送:6.1.0.125已来袭,API 24也转正了!

亲子要闻

韩国孩子4岁就要考英语幼儿园是家长停不下来的教育焦虑

教育要闻

“把女儿养成财阀千金”,开明家教走红,只看穿着就超越90%家庭

家居要闻

古老而持久 石影扶手椅

本地新闻

用剪纸的方式,打开江苏扬州

无障碍浏览 进入关怀版