网易首页 > 网易号 > 正文 申请入驻

基于奖励驱动和自组织演化机制,ReSo重塑复杂推理任务中智能协作

0
分享至


本文由上海人工智能实验室,悉尼大学,牛津大学联合完成。第一作者周恒为上海 ailab 实习生和 Independent Researcher 耿鹤嘉。通讯作者为上海人工智能实验室青年科学家白磊和牛津大学访问学者,悉尼大学博士生尹榛菲,团队其他成员还有 ailab 实习生薛翔元。

ReSo框架(Reward-driven &Self-organizing)为复杂推理任务中的多智能体系统(MAS)提供了全新解法,在处理复杂任务时,先分解生成任务图,再为每个子任务匹配最佳 agent。将任务图生成与奖励驱动的两阶段智能体选择过程相结合,该方法不仅提升了多智能体协作的效率,还为增强多智能体的推理能力开辟了新路径。

  • 论文标题:ReSo: A Reward-driven Self-organizing LLM-based Multi-Agent System for Reasoning Tasks
  • 论文链接:https://arxiv.org/abs/2503.02390
  • 代码地址:https://github.com/hengzzzhou/ReSo

研究背景:LLM 推理能力的掣肘与突破口

近年来,增加推理时间(Inference Time Scaling)被广泛认为是提升大语言模型(Large Language Models, LLMs)推理能力的重要途径之一。一方面,通过在训练后阶段引入强化学习与奖励模型,可优化单一模型的推理路径,使其在回答前生成中间步骤,表现出更强的逻辑链构建能力;另一方面,也有研究尝试构建多智能体系统(Multi-Agent Systems, MAS),借助多个基座模型或智能体的协同工作来解决单次推理难以完成的复杂任务。

相较于单模型的推理时间扩展,多智能体方法在理论上更具灵活性与可扩展性,但在实际应用中仍面临诸多挑战:

(1)多数 MAS 依赖人工设计与配置,缺乏自动扩展与适应性的能力;

(2)通常假设所有智能体能力已知,然而 LLM 作为 “黑箱式” 的通用模型,在实际任务中往往难以预先评估其能力边界;

(3)现有 MAS 中的奖励信号设计较为粗糙,仅依赖结果反馈或自我评估,难以有效驱动优化过程;

(4)缺乏基于数据反馈的动态演化机制,限制了 MAS 系统在大规模任务中的表现与泛化能力。

上述限制提出了一个核心问题:能否构建一种具备自组织能力的多智能体系统,使其能够通过奖励信号直接从数据中学习协作策略,而无需大量人工干预?

为应对这一挑战,作者提出了ReSo—— 一个基于奖励驱动、自组织演化机制的多智能体系统架构。该方法通过引入协同奖励模型(Collaborative Reward Model, CRM),在任务图生成与智能体图构建之间建立反馈闭环,从而实现基于细粒度奖励的智能体动态优化与协作演化。与现有多智能体方案相比,ReSo 在可扩展性与优化能力上均具优势,并在多项复杂推理任务上达到了领先性能。

ReSo 框架流程图

2. 任务图生成:明确子任务和依赖关系

ReSo 首先使用一个大语言模型将复杂问题分解,转化为分步骤的有向无环任务图 (DAG Task Graph),为后续智能体分配提供基础。

在实践中,对于任务分解,作者既测试了了已有的闭源模型(如 gpt4o),也在开源 LLM (如 Qwen-7b) 上进行监督微调 (SFT) 来执行更专业的任务分解。为了微调开源 LLM,作者构建了合成数据(见后文数据贡献章节),明确要求 LLM 将 Q 分解为逻辑子问题,指定它们的执行顺序和依赖关系,并以 DAG 格式输出。

3. 两阶段智能体选择:从粗到细,精挑细选

2. 从 MCTS 视角看 ReSo:降低复杂度,提升扩展性

任务图经过拓扑排序后,形成一棵决策树,其中每个节点代表一个子任务,边表示依赖关系。在每一层,作者使用 UCB 修剪树并选择一组有潜力的智能体,然后模拟每个智能体并使用 CRM 评估其性能。由此产生的奖励会更新智能体的动态配置文件,从而优化选择策略。MAS 的构建本质上是寻找从根到叶的最佳路径,最大化 UCB 奖励以获得最佳性能。

数据集生成:Mas-Dataset

由于缺乏高质量的 MAS 数据集,作者提出了一种自动化方法来生成多智能体任务数据。这个过程包括随机生成任务图、填充子任务以及构建自然语言依赖关系。提出了一个单个 sample 就具有多学科任务的数据集。开源了数据合成脚本论文合成了 MATH-MAS 和 Scibench-MAS 数据集,复杂度有3,5,7。复杂度为 7 的意思为,单个题目中由7个子问题组成,他们来自不同的领域(数学,物理,化学)。子问题之间有依赖关系,评测模型处理复杂问题的能力。下图是个 Scibench-MAS 复杂度为 3 的例子:

实验结果

主要结果

表 1 的实验结果实验表明,ReSo 在效果上匹敌或超越现有方法。ReSo 在 Math-MAS-Hard 和 SciBench-MAS-Hard 上的准确率分别达到 33.7% 和 32.3% ,而其他方法则完全失效。图 3 显示,在复杂推理任务中,ReSo 的表现全面优于现有 MAS 方法,展现了其卓越的性能和强大的适应性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台湾网红与张雪见面:你是我偶像!台湾把你视为神 见到820激动

台湾网红与张雪见面:你是我偶像!台湾把你视为神 见到820激动

念洲
2026-05-26 18:15:02
男子打赏女主播74万余元,多次要求见面被拒后起诉要回,“她说过要跟我‘生猴子’”,法院判了!其已累计打赏超千名主播460万元

男子打赏女主播74万余元,多次要求见面被拒后起诉要回,“她说过要跟我‘生猴子’”,法院判了!其已累计打赏超千名主播460万元

大风新闻
2026-05-26 22:10:58
53岁袁立病房照曝光!钱再多有什么用?她给所有中年女人提了个醒

53岁袁立病房照曝光!钱再多有什么用?她给所有中年女人提了个醒

文刀贰
2026-05-24 21:21:45
45辆新车在境外离奇消失!45笔零首付车贷,拖垮数十名普通人

45辆新车在境外离奇消失!45笔零首付车贷,拖垮数十名普通人

方圆
2026-05-25 14:50:41
官方通报“维也纳酒店牙刷刷马桶”“全季酒店用客人牙刷洗杯子后放回”:约谈涉事酒店负责人,责令立即整改,将根据调查核实情况严肃处理

官方通报“维也纳酒店牙刷刷马桶”“全季酒店用客人牙刷洗杯子后放回”:约谈涉事酒店负责人,责令立即整改,将根据调查核实情况严肃处理

大风新闻
2026-05-26 11:12:07
不声不响从5元涨到132,上涨26倍,有几个投资者能拿到现在?

不声不响从5元涨到132,上涨26倍,有几个投资者能拿到现在?

丁丁鲤史纪
2026-05-26 17:44:43
武契奇坐小飞机访华,但中方给塞尔维亚的东西,10架运20都装不下

武契奇坐小飞机访华,但中方给塞尔维亚的东西,10架运20都装不下

健身狂人
2026-05-26 18:13:16
苏超丑闻!曝20岁球员与5拉拉队员淫乱+有未成年 疑是双胞胎之一

苏超丑闻!曝20岁球员与5拉拉队员淫乱+有未成年 疑是双胞胎之一

念洲
2026-05-26 16:59:20
8枪秒杀七人,一人反杀120名黑社会成员,行凶者是职业杀手所为!

8枪秒杀七人,一人反杀120名黑社会成员,行凶者是职业杀手所为!

易玄
2026-05-26 11:23:01
投毒杀人者、 三体公司原CEO许垚被执行死刑

投毒杀人者、 三体公司原CEO许垚被执行死刑

经济观察报
2026-05-26 09:53:04
王鹤棣父亲回应店铺遭多条差评:生意下降了40%,白天晚上都有影响

王鹤棣父亲回应店铺遭多条差评:生意下降了40%,白天晚上都有影响

封面新闻
2026-05-26 19:12:38
中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

细说职场
2026-05-26 14:40:46
胡金秋10中8高效18+7:陷犯规麻烦防守不敢做动作 末节爆发无用

胡金秋10中8高效18+7:陷犯规麻烦防守不敢做动作 末节爆发无用

醉卧浮生
2026-05-26 21:33:44
18.99万起,奔驰新车官宣:6月11日,正式上市

18.99万起,奔驰新车官宣:6月11日,正式上市

科技堡垒
2026-05-25 12:00:29
布伦森动情痛哭!1.88米次轮秀创8纪录 美媒:降薪1.13亿成经典

布伦森动情痛哭!1.88米次轮秀创8纪录 美媒:降薪1.13亿成经典

颜小白的篮球梦
2026-05-26 17:20:34
住院新规来了!白天治疗、晚上回家,陪护不再全家熬(政策解读)

住院新规来了!白天治疗、晚上回家,陪护不再全家熬(政策解读)

李博世财经
2026-05-26 10:01:57
骑士今夏如何引援冲冠?美媒列三大目标:字母居首哈登前队友在列

骑士今夏如何引援冲冠?美媒列三大目标:字母居首哈登前队友在列

罗说NBA
2026-05-26 16:51:57
闹大了!庾澄庆被淘汰后不忍了,公开内涵《歌手》节目组

闹大了!庾澄庆被淘汰后不忍了,公开内涵《歌手》节目组

秋姐居
2026-05-26 19:34:25
第三轮第六批中央生态环境保护督察公布广东广西两省区典型案例

第三轮第六批中央生态环境保护督察公布广东广西两省区典型案例

新京报
2026-05-26 10:14:20
这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,露的好辣眼

这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,露的好辣眼

嫹笔牂牂
2026-05-26 07:30:48
2026-05-26 22:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13088文章数 142653关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

团伙在上海高速碰瓷涉案60多万:定下每天1万5的KPI

头条要闻

团伙在上海高速碰瓷涉案60多万:定下每天1万5的KPI

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

健康
家居
手机
旅游
公开课

外泌体抗衰,什么时候能用上?

家居要闻

生与命相依 旧公寓改造

手机要闻

荣耀600e中端手机今日海外发布

旅游要闻

与辉同行山东行 |《我们的幕后》山东Day2

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版