网易首页 > 网易号 > 正文 申请入驻

NUS邵林团队发布DexSinGrasp基于强化学习实现物体分离与抓取统一

0
分享至

本文的作者均来自新加坡国立大学 LinS Lab。本文的共同第一作者为新加坡国立大学实习生许立昕和博士生刘子轩,主要研究方向为机器人学习和灵巧操纵,其余作者分别为硕士生桂哲玮、实习生郭京翔、江泽宇以及博士生徐志轩、高崇凯。本文的通讯作者为新加坡国立大学助理教授邵林。

在物流仓库、生产线或家庭场景中,机器人常常需要在大量杂乱摆放的物体中高效地抓取目标。

在这些场景中,如果使用机械夹爪,由于其自由度有限、灵活性不足,需要多次对场景进行操作;而高自由度的灵巧手虽然具有潜在优势,但因控制复杂和训练难度大,在密集遮挡与复杂排列场景下往往表现不佳。

现有方法常采用先分离、后抓取的策略,存在策略切换不够灵活,执行效率低下的问题。

为解决这一挑战,来自新加坡国立大学的邵林团队提出了 DexSinGrasp——一种基于强化学习的统一策略,通过整合物体分离与抓取任务,令灵巧手在杂乱环境中能够自适应调整分离与抓取策略,显著提高抓取成功率和操作效率。该项研究已投稿至 IROS 2025。

论文标题:DexSinGrasp: Learning a Unified Policy for Dexterous Object Singulation and Grasping in Cluttered Environments

论文链接:https://arxiv.org/abs/2504.04516

项目主页:https://nus-lins-lab.github.io/dexsingweb/

代码链接:https://github.com/davidlxu/DexSinGrasp

为了让机器人在多变的杂乱环境中高效分离物体并抓取目标,DexSinGrasp 提出了「统一策略」的设计。该方法通过强化学习构建了一体化的策略框架,实现了「分离—抓取」动作的无缝衔接。该项研究的主要贡献有:

统一强化学习策略:提出一种统一的强化学习策略,实现灵巧手在杂乱环境中对物体的有效分离和抓取。

课程学习与策略蒸馏:融入杂乱环境课程学习以提升不同场景下的策略性能,并通过策略蒸馏获得适用于实际部署的视觉抓取策略。

多难度抓取任务设计:设计一系列不同难度与排列的杂乱抓取任务,通过大量实验验证所提方法的高效性与有效性。

方法

统一强化学习策略

DexSinGrasp 的核心在于构建一个统一的策略框架,引入分离奖励项,将「分离障碍」、「抓取目标」整合为一个连续的动作决策过程,充分利用了分离与抓取融合的优势,避免传统多阶段方法中各模块间效率低下和动作衔接不畅的问题。为此,我们设计了一个分段式奖励函数,其关键组成包括:

杂乱环境课程学习

在高度杂乱的场景中直接训练机器人往往容易陷入局部最优,导致成功率低下。为此,我们引入了「杂乱环境课程学习」的机制,具体包括:

任务分级设计:从最简单的单目标抓取任务开始,逐步引入障碍物。我们设计了不同难度的任务,例如:

密集排列任务:用 D-4、D-6、D-8 表示,不同数字代表环境中障碍物数量的递增;

随机排列任务:用 R-4、R-6、R-8 表示,以验证策略在非规则分布场景下的泛化能力。

循序渐进训练:先在障碍物较少且排列较规则的环境中训练出初步策略,然后逐步过渡到障碍物数量更多、排列更随机的复杂场景。这样的训练策略能显著提高策略的稳定性和泛化性能,确保机器人在极端密集的环境下也能有效分离并抓取目标。

教师—学生策略蒸馏

在仿真环境中,我们能够利用精确的物体位置、力反馈等特权信息训练出高性能的教师策略。但在真实场景中,这些信息难以获取,为此我们设计了教师—学生策略蒸馏方案:

教师策略:利用仿真中丰富的特权信息训练出性能优异的策略,能够精细地控制物体的分离和抓取动作。

数据采集与行为克隆:通过教师策略生成大量示范数据(包括视觉观测、点云数据以及动作指令),并采用行为克隆的方法训练出只依赖摄像头采集的点云和机器人自感知数据的学生策略。这样,在真实环境中,机器人无需额外传感器信息也能保持高成功率,完成从仿真到实机的平滑迁移。

实验结果

为了测试 DexSinGrasp 策略在分离抓取时的有效性和泛化性,以及杂乱环境课程学习的有效性,设计了三组实验进行测试,并与两种基线比较。

基线 1 仅训练了一个抓取策略,没有鼓励对周围物体进行分离。基线 2 将分离和抓取策略分开且分阶段进行。

评价指标为抓取成功率(SR)和平均步数(AS)。抓取成功率越高,说明策略的有效性越高,平均步数越少,说明策略的效率越高。

实验 1

对教师策略和学生策略在不同数量障碍的紧密排列进行测试,证明了 DexSinGrasp 的有效性和高效率。图示是教师策略在密集摆放模式下障碍物数量为 4、6、8 时的仿真演示。

实验 2

对教师策略和学生策略在不同数量障碍的随机排列进行测试,结果证明了 DexSinGrasp 在随机物体摆放下也可以实现成功分离抓取,对不同的场景有一定泛化性。图示是教师策略在随机摆放模式下障碍物数量为 4、6、8 时的仿真演示。

实验 3

对杂乱环境课程学习的方式进行测试。我们尝试了无课程学习、先随机排列再紧密排列的课程学习,以及先紧密排列再随机排列的课程学习的训练模式。

我们发现,无课程学习训练的各个策略中,随机排列的任务表现不佳;先随机排列再紧密排列的课程学习获得的各个策略中,紧密排列的任务表现不佳;而先紧密排列再随机排列的课程学习在不同的任务上均取得了不错的成功率,证实了所提出的课程学习机制在不同场景下的有效性。

此外,研究团队还在实机平台上进行了验证。使用 uFactory xArm6 搭载 LEAP 手,并配备两台 Realsense RGB-D 摄像头以进行实时点云数据融合与滤波处理。图示为实机实验中对密集与随机摆放的 4、6、8 个物体场景下成功分离与抓取的演示。实验表明,经过教师—学生策略蒸馏后的视觉策略在实际操作中也能有效完成杂乱环境的有效分离与抓取。

总结

研究团队所提出的 DexSinGrasp 是一种基于强化学习的统一框架,通过整合物体分离与抓取任务,实现了灵巧手在杂乱环境中的高效操作。

该方法突破以往直接抓取或多阶段分割的策略,利用推移、滑动等动作在抓取过程中直接调整障碍物布局,结合环境复杂度递进式的杂乱环境课程学习与教师—学生策略蒸馏技术,有效提升视觉策略的泛化能力与仿真到现实的迁移效果。

实验表明,该方法在多种测试场景中展现出优于传统方法的抓取成功率和操作效率。未来研究将拓展至动态复杂场景下的多形态物体操作,增强抗干扰能力,进一步提高系统在非结构化环境中的泛化性与适应性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5年1.73亿!有钱却不快乐!NBA球星公然凡尔赛

5年1.73亿!有钱却不快乐!NBA球星公然凡尔赛

篮球教学论坛
2026-05-28 14:14:58
美女飞行员突破“12G”的瓜

美女飞行员突破“12G”的瓜

吃瓜体
2026-05-25 16:16:43
身家几十亿的“煤矿幕后老板”任铁柱,因82条人命可能彻底崩塌

身家几十亿的“煤矿幕后老板”任铁柱,因82条人命可能彻底崩塌

辛苦的小陈拉
2026-05-28 06:52:20
杀人诛心!利物浦 1.2 亿天王一年就废!阿隆索抄底老东家

杀人诛心!利物浦 1.2 亿天王一年就废!阿隆索抄底老东家

奶盖熊本熊
2026-05-28 05:11:31
韦德一句话评价他和詹姆斯的历史地位,本来很客观,但有人看不懂

韦德一句话评价他和詹姆斯的历史地位,本来很客观,但有人看不懂

铁甲西奇
2026-05-28 15:46:53
继萝卜岗后,又出来“祖坟”岗?网友:谁能考上,一辈子有的吹了

继萝卜岗后,又出来“祖坟”岗?网友:谁能考上,一辈子有的吹了

社会日日鲜
2026-05-21 09:22:29
白边缺席G2训练!洛夫顿赛前决定 卢伟直言上海已打明牌人员吃紧

白边缺席G2训练!洛夫顿赛前决定 卢伟直言上海已打明牌人员吃紧

颜小白的篮球梦
2026-05-28 13:44:55
国家卫健委明确!住院不用整夜守医院,白天治疗晚上能回家

国家卫健委明确!住院不用整夜守医院,白天治疗晚上能回家

健身狂人
2026-05-28 14:16:47
体制内“女儿国”现象越来越严重,领导吐槽:工作都不好开展!

体制内“女儿国”现象越来越严重,领导吐槽:工作都不好开展!

黯泉
2026-05-20 16:13:40
突发!美军对伊朗实施新的打击,伊朗南部连续传出爆炸声!霍尔木兹大消息,特朗普警告盟友:不守规矩会被炸飞;国际油价直线拉升

突发!美军对伊朗实施新的打击,伊朗南部连续传出爆炸声!霍尔木兹大消息,特朗普警告盟友:不守规矩会被炸飞;国际油价直线拉升

每日经济新闻
2026-05-28 07:43:07
济南市莱芜区委原副书记王宁被“双开”

济南市莱芜区委原副书记王宁被“双开”

中国山东网
2026-05-28 11:12:48
教师方某多次以触碰胸部、拉衣领窥视等方式对多名女学生实施猥亵,被害女学生家长曾反映,校方仅口头警告,最终被判七年六个月、从业禁止

教师方某多次以触碰胸部、拉衣领窥视等方式对多名女学生实施猥亵,被害女学生家长曾反映,校方仅口头警告,最终被判七年六个月、从业禁止

都市快报橙柿互动
2026-05-28 15:22:48
重磅!蒙古高控卫试训雄鹿 首位NBA球员?中国后卫断档太久

重磅!蒙古高控卫试训雄鹿 首位NBA球员?中国后卫断档太久

你看球呢
2026-05-28 10:05:39
国安部:不法分子在党政机关、军队、国防军工单位等涉密单位附近开展“扫码抽大奖”“免费领礼品”等活动,诱导扫码,获取涉密敏感信息

国安部:不法分子在党政机关、军队、国防军工单位等涉密单位附近开展“扫码抽大奖”“免费领礼品”等活动,诱导扫码,获取涉密敏感信息

晋江电视台
2026-05-27 09:38:41
62岁聂海胜现状:现身神州23欢送仪式,退休后逆袭成上海交大博士

62岁聂海胜现状:现身神州23欢送仪式,退休后逆袭成上海交大博士

不写散文诗
2026-05-27 12:32:29
震惊!贵州大学招聘岗位限配偶条件,被质疑“萝卜岗”,评论炸锅

震惊!贵州大学招聘岗位限配偶条件,被质疑“萝卜岗”,评论炸锅

火山詩话
2026-05-28 15:07:01
卢伟展望总决赛G2:洛夫顿出战看个人,直指困难,表扬国内球员!

卢伟展望总决赛G2:洛夫顿出战看个人,直指困难,表扬国内球员!

篮球资讯达人
2026-05-28 12:54:19
金溥聪:未说马英九夫妻分居,向周美青道歉

金溥聪:未说马英九夫妻分居,向周美青道歉

新时光点滴
2026-05-28 04:39:51
并非危言耸听:印度,正被遗弃在酷热中自生自灭

并非危言耸听:印度,正被遗弃在酷热中自生自灭

小莜读史
2026-05-27 04:25:03
中国金花王曦雨晋级法网32强,对手在比赛中突然倒地,哭着退赛

中国金花王曦雨晋级法网32强,对手在比赛中突然倒地,哭着退赛

极目新闻
2026-05-28 07:25:35
2026-05-28 16:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13102文章数 142653关注度
往期回顾 全部

科技要闻

台积电3纳米下半年涨价15% 明年或再涨10%

头条要闻

20万飞天茅台搭售40万黔茅酒 老板参加"峰会"后称被耍

头条要闻

20万飞天茅台搭售40万黔茅酒 老板参加"峰会"后称被耍

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

房产
旅游
游戏
家居
数码

房产要闻

突发重磅!三亚新机场公司正式成立!

旅游要闻

秀我中国|重庆奉节金凤山云海风车风景如画

《红色沙漠》后台出现DLC字样!或将官宣 太神速了

家居要闻

蜂鸟餐椅 线面交错

数码要闻

树莓派:12年前的Raspberry 1 B+当下年出货规模仍有数千块

无障碍浏览 进入关怀版