网易首页 > 网易号 > 正文 申请入驻

MIT开发高效算法大幅降低强化学习训练成本

0
分享至


(来源:MIT News)

从机器人到医学到政治学,各领域都在尝试训练 AI 系统做出有意义的决策。

例如,利用 AI 系统智能控制拥堵城市的交通,不仅可以帮助驾驶员更快到达目的地,还能提升安全性或可持续性。然而,教 AI 系统做出良好决策绝非易事。

支撑这些 AI 决策系统的强化学习模型在面对任务中的细微变化时,往往仍然会失败。以交通为例,当模型面对具有不同车速限制、车道数量或交通模式的路口时,可能难以有效控制。

为提升强化学习模型在具有多样性的复杂任务中的可靠性,MIT 研究人员引入了一种更高效的训练算法。

该算法通过战略性选择最佳训练任务,使 AI 智能体能够高效完成一组相关任务集合中的所有任务。以交通信号控制为例,每个任务可以视为一个路口,而任务空间则包含整个城市中的所有路口。

通过专注于对算法整体效果贡献最大的少数路口,该方法在提高性能的同时,显著降低了训练成本。

研究人员发现,在一系列模拟任务中,该技术比标准方法高效 5 到 50 倍。这种效率提升使算法能够更快地学习到更优的解决方案,最终改善 AI 智能体的表现。

“通过一种非常简单的算法,我们看到了惊人的性能提升。这种不复杂的算法更容易被社区接受,因为它的实现和理解都更简单,”论文资深作者、MIT 土木与环境工程系(CEE)和数据系统与社会研究所(IDSS)Thomas D. and Virginia W. Cabot 职业发展副教授、信息与决策系统实验室(LIDS)成员 Cathy Wu 说。

该论文的主要作者是 CEE 研究生 Jung-Hoon Cho,参与作者包括电气工程与计算机科学系(EECS)研究生 Vindula Jayawardana,以及 IDSS 研究生 Sirui Li。此研究将在神经信息处理系统会议NeurIPS上发表。



寻找折中之道

在为城市多个路口的交通信号灯设计控制算法时,工程师通常会在两种主要方法中进行选择:要么为每个路口单独训练一个算法,仅使用该路口的数据;要么使用所有路口的数据训练一个更大的算法,然后将其应用于每个路口。

然而,这两种方法各有缺陷。为每个任务(如一个特定路口)单独训练算法需要耗费大量时间、数据和计算资源;而为所有任务训练一个通用算法往往会导致表现不佳。

Cathy Wu 及其合作者试图在这两种方法之间找到平衡点。

在他们的方法中,研究团队选择了一部分任务,为每个任务独立训练一个算法。关键在于,他们会策略性地选择最有可能提升整体任务表现的单个任务。

他们借助强化学习领域的一个常用技巧——零样本迁移学习(zero-shot transfer learning)。这种方法将已训练好的模型直接应用于一个新的任务,而无需进一步训练。通过迁移学习,模型往往在新任务上表现出色,尤其是与原任务相似的邻近任务。

“我们知道理想情况下应该对所有任务进行训练,但我们好奇是否可以仅对一部分任务进行训练,并将结果应用于所有任务,同时仍能看到性能的提升。”Wu 说道。

为确定哪些任务最值得选择以最大化整体表现,研究人员开发了一种名为基于模型的迁移学习(Model-Based Transfer Learning, MBTL)的算法。

MBTL 算法由两部分组成:首先,它会模拟每个算法在单个任务上的独立训练表现。其次,它会模拟将每个算法迁移到其他任务时性能的下降情况,即所谓的泛化性能(generalization performance)。

通过明确建模泛化性能,MBTL 可以估算出对新任务进行训练的价值。

MBTL 按顺序进行操作,优先选择带来最高性能增益的任务进行训练,然后依次选择能够提供最大边际性能提升的任务。

由于 MBTL 仅专注于最有潜力的任务,这种方法可以显著提高训练过程的效率。



降低训练成本

当研究人员将这一技术应用于模拟任务时,包括控制交通信号、管理实时速度建议以及执行多个经典控制任务,该方法的效率比其他方法高出 5 到 50 倍。

这意味着,他们可以使用更少的数据量达到相同的解决方案。例如,在效率提高 50 倍的情况下,MBTL 算法只需针对 2 个任务进行训练,就能达到标准方法需要 100 个任务数据才能实现的同等性能。

“从两种主要方法的角度来看,这意味着其他 98 个任务的数据并非必要,或者对所有 100 个任务进行训练会让算法感到混淆,从而导致性能比我们的方法更差。”Wu 说。

使用 MBTL,即使只增加少量额外的训练时间,也可能显著提高性能。

未来,研究人员计划设计能够扩展到更复杂问题的 MBTL 算法,例如高维任务空间。他们还希望将这一方法应用于现实世界的问题,尤其是在下一代移动系统中。

该研究部分由美国国家科学基金会职业奖(National Science Foundation CAREER Award)、冠廷教育基金会博士奖学金计划(Kwanjeong Educational Foundation PhD Scholarship Program)以及亚马逊机器人博士奖学金(Amazon Robotics PhD Fellowship)资助。

https://news.mit.edu/2024/mit-researchers-develop-efficiency-training-more-reliable-ai-agents-1122

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比俄罗斯还大方!为中国送来上千个核心技术,只为报答我国恩情

比俄罗斯还大方!为中国送来上千个核心技术,只为报答我国恩情

踏尽世间疾
2024-11-27 16:52:42
奇耻大辱,基辅移交莫斯科的图-160轰炸机,被俄拿来轰炸乌克兰

奇耻大辱,基辅移交莫斯科的图-160轰炸机,被俄拿来轰炸乌克兰

白虎堂
2024-11-27 08:50:39
暴跌88%!中国最大车企向华为妥协了!

暴跌88%!中国最大车企向华为妥协了!

财经三分钟pro
2024-11-28 19:59:01
同济医院18名骨科医生收回扣2200多万元,查不到医生的处罚结果?

同济医院18名骨科医生收回扣2200多万元,查不到医生的处罚结果?

你食不食油饼
2024-11-29 01:55:34
为什么找女友,腿越粗越好?!

为什么找女友,腿越粗越好?!

健身S叔
2024-11-26 23:11:05
46岁郝蕾暴瘦二十斤!穿粉色西装又飒又美,重回颜值巅峰

46岁郝蕾暴瘦二十斤!穿粉色西装又飒又美,重回颜值巅峰

南城无双
2024-11-22 00:55:56
朱莉与小9岁黑人男友酒店密会,颜值没比皮特高,但孩子们能接受

朱莉与小9岁黑人男友酒店密会,颜值没比皮特高,但孩子们能接受

南城无双
2024-11-28 13:48:09
黄圣依曝李行亮麦琳和好后,约他们出来聚餐被拒,原因让人笑翻

黄圣依曝李行亮麦琳和好后,约他们出来聚餐被拒,原因让人笑翻

娱最资讯
2024-11-29 00:01:53
性质恶劣! 上海交通大学附属第六人民医院胸外科论文被质疑

性质恶劣! 上海交通大学附属第六人民医院胸外科论文被质疑

王晓爱体彩
2024-11-28 19:40:16
美将公布新的对华芯片出口限制?商务部:若美方执意升级管制,中方将采取必要措施

美将公布新的对华芯片出口限制?商务部:若美方执意升级管制,中方将采取必要措施

每日经济新闻
2024-11-28 16:43:34
韩娱的恋幼审美已经不藏了?她这乳牙还没换完就出道对打张元英了

韩娱的恋幼审美已经不藏了?她这乳牙还没换完就出道对打张元英了

新氧
2024-11-28 11:37:33
南京某食品企业流出过期腐败冻肉?当地市场监管:已介入调查|追踪到底

南京某食品企业流出过期腐败冻肉?当地市场监管:已介入调查|追踪到底

封面新闻
2024-11-28 22:00:11
郑爽的滞留美国现状:又胖又秃生活窘迫,为留美国找白人男友

郑爽的滞留美国现状:又胖又秃生活窘迫,为留美国找白人男友

阿纂看事
2024-11-14 10:52:04
没让大陆失望!蔡英文返台,下飞机前讲出3个词,民进党底牌打光

没让大陆失望!蔡英文返台,下飞机前讲出3个词,民进党底牌打光

现代小青青慕慕
2024-11-26 07:20:34
孙卓上大学后有了新变化,留起长发还扎小辫子,父母的态度有分歧

孙卓上大学后有了新变化,留起长发还扎小辫子,父母的态度有分歧

石榴妈妈教育日记
2024-11-27 20:39:42
极氪高管发销量榜引小鹏高管不满:这么贴心的挑出1000台?

极氪高管发销量榜引小鹏高管不满:这么贴心的挑出1000台?

三言科技
2024-11-28 08:33:25
中国第一败家子,争抢女星与文强大打出手,在天上人间石破天惊

中国第一败家子,争抢女星与文强大打出手,在天上人间石破天惊

干史人
2024-11-07 07:00:03
班主任用16张戳心图告诉你:不读书,换来的是一生的卑微和底层!

班主任用16张戳心图告诉你:不读书,换来的是一生的卑微和底层!

山东教育信息
2024-10-23 11:58:47
中美选谁?默克尔:欧美利益不同,提醒中方如何与特朗普打交道!

中美选谁?默克尔:欧美利益不同,提醒中方如何与特朗普打交道!

清风醉史
2024-11-29 08:49:35
发现个奇怪现象:凡是父母独自生活,子女忙事业,双方都轻松自在

发现个奇怪现象:凡是父母独自生活,子女忙事业,双方都轻松自在

鬼谷子思维
2024-11-12 15:24:03
2024-11-29 09:51:00
DeepTech深科技
DeepTech深科技
麻省理工科技评论独家合作
14508文章数 513007关注度
往期回顾 全部

科技要闻

车企付款周期特斯拉最短,造车新势力垫底

头条要闻

上海女子称遭中医侵犯:没注意到他脱裤子 来不及防备

头条要闻

上海女子称遭中医侵犯:没注意到他脱裤子 来不及防备

体育要闻

道心破碎的姆巴佩,交出一张负分答卷

娱乐要闻

冯绍峰新恋情曝出!女方第一时间发文辟谣

财经要闻

洪灏:不要误解增量政策 不是数越大越好

汽车要闻

ID. CODE概念车/探岳L领衔 大众汽车携25款车亮相

态度原创

旅游
游戏
房产
数码
公开课

旅游要闻

张家口一滑雪场吊厢突然停运 游客-15℃被困

《潜行者2》的开发究竟有多艰难?制作经费短缺,员工还被抓壮丁

房产要闻

湾区黄金枢纽之上,有灵魂与底蕴的「世界庄园」广佛新世界,打版第四代高质量住宅!

数码要闻

全球首款动态血压监测手表!华为WATCH D2首销:首发2888元

公开课

一块玻璃,如何改变人类世界?

无障碍浏览 进入关怀版