网易首页 > 网易号 > 正文 申请入驻

PlaNet简介:强化学习的深度计划网络

0
分享至

研究如何通过增强学习(RL)快速发展人工代理如何随着时间的推移改善其决策。对于这种技术,代理人在选择动作(例如运动命令)时观察一系列的感官输入(例如摄像机图像),有时会收到实现特定目标的奖励。RL的无模型方法旨在直接根据感官观察预测良好的动作,从而使DeepMind的DQN可以玩Atari和其他代理来控制机器人 。但是,这种黑匣子方法通常需要数周的模拟交互才能通过反复试验来学习,从而限制了其在实践中的实用性。相反,

基于模型的RL试图让代理了解世界的总体行为。与其直接将观察结果映射到行动,不如使代理人明确地提前计划,通过“想象”其长期结果来更仔细地选择行动。基于模型的方法已经取得了巨大的成功,其中包括AlphaGo,它设想利用已知的游戏规则在虚拟板上进行一系列移动。但是,要在未知的情况下利用计划在环境中(例如仅以像素为输入来控制机器人),代理必须从经验中学习规则或动态。由于这种动力学模型原则上可以实现更高的效率和自然的多任务学习,因此创建足够准确以成功进行计划的模型是RL的长期目标。

为了推动这一研究挑战的进展,并与DeepMind合作,我们提出了Deep Planning Network(PlaNet)代理,该代理仅从图像输入中学习世界模型,并成功地将其用于规划。PlaNet解决了各种基于图像的控制任务,在最终性能方面与先进的无模型代理竞争,同时平均数据效率提高了5000%。我们还将发布源代码,以供研究社区使用。

与计划图像的先前方法相比,我们依靠隐藏或潜在状态的紧凑序列。这被称为潜在动力学模型:我们直接预测潜在状态,而不是直接从一个图像到下一个图像进行预测。然后从相应的潜在状态生成每个步骤的图像和奖励。通过以这种方式压缩图像,代理可以自动学习更多抽象的表示形式,例如对象的位置和速度,从而更容易向前预测而不必沿途生成图像。

学习的潜在动力学模型:在潜在动力学模型中,使用编码器网络(灰色梯形)将输入图像的信息集成到隐藏状态(绿色)中。然后,将隐藏状态及时向前投影,以预测将来的图像(蓝色梯形)和奖励(蓝色矩形)。

为了学习准确的潜在动力学模型,我们引入:循环状态空间模型:

具有确定性和随机性的潜在动力学模型,可以根据健壮的计划预测各种可能的未来,同时在许多时间步骤中记住信息。我们的实验表明,这两个组件对于实现高计划性能都是至关重要的。

潜在超调目标:通过在潜在空间中加强单步和多步预测之间的一致性,我们概括了潜在动力学模型的标准训练目标,以训练多步预测。这产生了快速有效的目标,可改善长期预测并与任何潜在序列模型兼容。

尽管预测未来的图像可以让我们讲授模型,但是对图像进行编码和解码(上图中的梯形)需要大量计算,这会减慢计划的速度。但是, 在紧凑的潜在状态空间中进行规划很快,因为我们只需要预测未来的回报,而不是图像就可以评估动作序列。例如,座席可以想象对于某些动作,球的位置及其到球门的距离将如何变化,而无需可视化场景。这样,每次代理选择一个动作时,我们就可以比较大批量的10,000个想象的动作序列。然后,我们执行找到的最佳顺序的第一个动作,并在下一步进行重新计划。

潜在空间中的规划:为了进行规划,我们将过去的图像(灰色梯形)编码为当前的隐藏状态(绿色)。从那里,我们可以有效地预测多个动作序列的未来回报。请注意,上图中昂贵的图像解码器(蓝色梯形)是如何消失的。然后,我们执行找到的最佳序列的第一个动作(红色框)。

与我们之前关于世界模型的工作相比,PlaNet在没有策略网络的情况下工作-它纯粹是通过计划选择行动,因此可以从模型改进中受益。有关技术细节,请查看我们的在线研究论文或PDF版本。

PlaNet与无模型方法

我们在连续控制任务上评估PlaNet。仅向代理提供图像观察和奖励。我们考虑提出各种不同挑战的任务:

带有固定摄像头的摆杆摆转任务,因此手推车可以移开视线。因此,代理必须吸收并记住多个帧上的信息。

手指旋转任务,需要预测两个单独的对象以及它们之间的交互。

一种猎豹奔跑任务,其中包括难以精确预测的与地面的接触,因此需要一种可以预测多种可能未来的模型。

杯赛任务,仅在接住球后才提供稀疏的奖励信号。这就需要对未来进行准确的预测,以计划精确的动作序列。

步行者任务,其中模拟机器人躺在地上开始,必须首先学会站起来然后走路。

PlaNet代理接受了各种基于图像的控制任务的培训。动画显示了代理正在解决任务时的输入图像。这些任务带来了不同的挑战:局部可观察性,与地面的接触,接球的稀疏奖励以及控制具有挑战性的两足机器人。

我们的工作构成了第一个例子,其中在基于图像的任务上,具有学习能力的模型进行的计划优于无模型的方法。下表将PlaNet与著名的A3C代理和D4PG代理进行了比较,它们结合了无模型RL的最新进展。这些基准的数字来自DeepMind Control Suite。PlaNet在所有任务上均明显优于A3C,并达到接近D4PG的最终性能,而与环境的交互平均减少了5000%。

一个代理完成所有任务

此外,我们训练一个PlaNet代理来解决所有六个任务。代理被随机放置在不同的环境中而不知道任务,因此它需要根据其图像观察来推断任务。在不更改超参数的情况下,多任务代理可以实现与单个代理相同的平均性能。尽管在棘手任务上学习速度较慢,但??在需要探索的具有挑战性的助行器任务上,它的学习速度明显更快,并且最终性能更高。

PlaNet代理的视频预测可以完成多项任务。上面显示了由受过训练的特工收集的坚持事件,而下图显示了开环特工幻觉。代理将前5帧作为上下文进行观察以推断任务和状态,并根据给定的一系列动作准确地预先预测50个步骤。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普宣布获胜,对华政策已曝光,美方致电中国,奥巴马重出江湖

特朗普宣布获胜,对华政策已曝光,美方致电中国,奥巴马重出江湖

大白话瞰世界
2024-07-01 10:01:15
网传老师要求家长来打扫卫生,因无人报名恼羞成怒:以后学生成绩与我无关

网传老师要求家长来打扫卫生,因无人报名恼羞成怒:以后学生成绩与我无关

西游日记
2024-07-01 10:48:03
逗乐了!赵斌质疑姜萍成绩,姜萍却已踏上打工路,网友评论笑死人

逗乐了!赵斌质疑姜萍成绩,姜萍却已踏上打工路,网友评论笑死人

阿霸聊历史
2024-07-01 10:26:46
西安交大的瓜!毕业典礼,那位美貌与智慧并存的校花翻车了?

西安交大的瓜!毕业典礼,那位美貌与智慧并存的校花翻车了?

火山诗话
2024-06-29 07:55:28
2年7000万美元!哈登决定续约快船 湖人曾想用中产签下他

2年7000万美元!哈登决定续约快船 湖人曾想用中产签下他

罗说NBA
2024-07-01 06:10:36
在台上:我爱我的国,我的国需要我!下了台:加州伯克利真香!

在台上:我爱我的国,我的国需要我!下了台:加州伯克利真香!

雪莉故事汇
2024-07-01 10:58:21
国际胸模大赛第三场海选举行,18位佳丽化身赫本,现场惊艳

国际胸模大赛第三场海选举行,18位佳丽化身赫本,现场惊艳

乙图
2024-07-01 08:24:56
老人强迫女孩让座后续!女儿含泪发声:这7天不知道是怎么过来的

老人强迫女孩让座后续!女儿含泪发声:这7天不知道是怎么过来的

冬天来旅游
2024-07-01 12:33:52
学坏了?贝林厄姆进球后不理智画面在国外疯传,球迷:教坏小朋友

学坏了?贝林厄姆进球后不理智画面在国外疯传,球迷:教坏小朋友

侧身凌空斩
2024-07-01 03:33:17
知名港星苏州走穴,严重发福像临产孕妇,贴身抱女粉抛媚眼太油腻

知名港星苏州走穴,严重发福像临产孕妇,贴身抱女粉抛媚眼太油腻

八卦先生
2024-06-30 23:07:47
看完特朗普和拜登的辩论,美国选民:感觉我们要完蛋了

看完特朗普和拜登的辩论,美国选民:感觉我们要完蛋了

齐鲁壹点
2024-06-30 21:28:12
55岁吴秀波成老赖,被执行超7.5亿!去年称自己被设局害到破产

55岁吴秀波成老赖,被执行超7.5亿!去年称自己被设局害到破产

头号电影院
2024-06-30 01:57:51
别吃!别吃!一只寄生虫多达6000条!最新通报:已查封!

别吃!别吃!一只寄生虫多达6000条!最新通报:已查封!

农财宝典水产版
2024-06-30 19:24:57
天才陨落!曝张志杰去世细节,主裁业余,球迷炸锅,组委会遭痛批

天才陨落!曝张志杰去世细节,主裁业余,球迷炸锅,组委会遭痛批

大秦壁虎白话体育
2024-07-01 09:37:35
马英九伤心落泪:既想长久割据分裂,又怕被国家武力统一

马英九伤心落泪:既想长久割据分裂,又怕被国家武力统一

雪中风车
2024-07-01 09:41:02
曾因心脏手术退队,传奇蔡赟悼念张志杰:无比难过,国羽痛失才俊

曾因心脏手术退队,传奇蔡赟悼念张志杰:无比难过,国羽痛失才俊

我爱英超
2024-07-01 09:50:52
美国又赢了,冯德莱恩领导欧盟全部否决了马克龙与朔尔茨提议!

美国又赢了,冯德莱恩领导欧盟全部否决了马克龙与朔尔茨提议!

林林爱天堂
2024-07-01 06:37:37
冒着极大风险,他向中国记者展示这张照片!

冒着极大风险,他向中国记者展示这张照片!

环球时报新闻
2024-06-30 16:35:27
限制北约收集情报,威胁击落美无人机!俄军考虑在黑海设立禁飞区

限制北约收集情报,威胁击落美无人机!俄军考虑在黑海设立禁飞区

环球网资讯
2024-07-01 06:14:08
泽连斯基:俄乌谈判可采取分别与第三方谈判的模式

泽连斯基:俄乌谈判可采取分别与第三方谈判的模式

界面新闻
2024-07-01 07:18:28
2024-07-01 14:08:49
大虎谈科技
大虎谈科技
测评各种电子手机设备
150文章数 102220关注度
往期回顾 全部

科技要闻

河南火箭坠落爆炸?商业航天公司回应了

头条要闻

牛弹琴:马克龙惨败法国政治将瘫痪 拜登政府很紧张

头条要闻

牛弹琴:马克龙惨败法国政治将瘫痪 拜登政府很紧张

体育要闻

欧洲杯8强已定4席:英格兰战瑞士 西德PK

娱乐要闻

今年内娱最大的闹剧,该收场了

财经要闻

副行长坠楼 西安银行业绩到底怎么样?

汽车要闻

奥迪Q6 e-tron Sportback官图曝光

态度原创

时尚
房产
教育
公开课
军事航空

40岁女人的简约精致美,简单单品搭出高级感,变美如此轻松

房产要闻

20亿!又有国企要卖海南资产!

教育要闻

不想看这题,但又想知道结果…

公开课

连中三元是哪三元?

军事要闻

卫星影像显示山东舰抵菲附近海域

无障碍浏览 进入关怀版