网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

田渊栋团队新作祭出Agent-as-a-Judge！AI智能体自我审判，成本暴跌97%

2024-10-27 12:30:08　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子

【新智元导读】AI评估AI可靠吗？来自Meta、KAUST团队的最新研究中，提出了Agent-as-a-Judge框架，证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间，还提供丰富的中间反馈。

AI智能体，能否像人类一样有效地评估其他AI智能体？

对于AI智能体来说，评估决策路径一直是棘手的问题。

已有的评估方法，要么只关注结果，要么要要过多的人工完成。

为了解决这一问题，田渊栋、Jürgen Schmidhuber带领的团队提出了「Agent-as-a-Judge」框架。

简言之，让智能体来评估智能体系统，让AI审AI。

它不仅可以减少97%的成本和时间，还能提供丰富的中间反馈。

这是「LLM-as-a-Judge」框架的有机延伸，通过融入智能体特性，能够为整个任务解决过程提供中间反馈。

论文地址：https://arxiv.org/abs/2410.10934v1

研究人员提出了DevAI基准，为全新框架提供概念验证测试平台。包含55个真实的AI开发任务，带有详细的手动注释。

通过对三个领先的智能体系统进行基准测试，发现它大大优于「LLM-as-a-Judge」框架。

总之，这项研究真正的变革之处在于：它提供了可靠的奖励信号，为可扩展的、自我改进的智能体系统铺平了道路。

「法官」智能体，击败大模型

现有评估方法，无法为智能体系统的中间任务解决阶段，提供足够的反馈。

另一方面，通过人工进行更好的评估，代价太大。

而智能体系统的思考方式，更像人类，通常是逐步完成，并且在内部经常使用类人的符号通信来解决问题。

因此，智能体也能够提供丰富的反馈，并关注完整的思考和行动轨迹。

「Agent-as-a-Judge」不仅保留了「LLM-as-a-Judge」成本效益，还具备智能体特性，使其在整个过程中提供中间反馈。

下图展示了，大模型、智能体、人类作为评判者的示意图。

DevAI：自动化AI开发数据集

另外，在代码生成领域，基准测试的发展也落后于智能体系统的快速进步。

比如，HumanEval仅关注算法问题，而MBPP则处理简单的编程任务，但这两者都没有反映出开发者面临的最实际的挑战。

作为一个改进，SWE-Bench基准确实引入了GitHub现实问题，提供一种全新评估的方法。

不过，它仍需要关注自动修复任务的开发过程。

为了解决当前代码生成基准测试中的上述问题，研究人员引入了DevAI：AI开发者数据集，其中包含55个由专家注释者创建的真实世界综合AI应用开发任务。

DevAI结构是这样的：智能体系统首先接收用户查询以开始开发，然后根据AI系统满足需求的程度来评估它，其中偏好作为可选的、较为柔性的标准。

图3展示了DevAI任务的一个例子。

DevAI中的任务规模相对较小，但涵盖了常用的关键开发技术。

如图2所示，任务被标记并覆盖了AI的多个关键领域：监督学习、强化学习、计算机视觉、自然语言处理、生成模型等。

每个任务都是，可能交给研究工程师的真实世界问题，并降低了在这个基准上评估方法的计算成本。

接下来，研究人员将领先的开源代码生成智能体框架，应用于DevAI中的任务：MetaGPT、GPT-Pilot、OpenHands。

他们让人类评判者、大模型评判者、以及智能体评判者框架，来评估其性能。

结果如表1所示，MetaGPT最具成本效益（1.19美元），而OpenHands是最昂贵的（6.38美元）。

从开发时间来看，OpenHands完成任务平均耗时362.41秒，而GPT-Pilot耗时最长，为1622.38秒。

平均而言，使用这三者之一对DevAI进行完整评估，大约需要210.65美元和14小时才能完成。

Human-as-a-Juge：DevAI手动评估

为了确定DevAI的实用有效性，并准确估计当前最先进的智能体系统实际代码生成能力，研究人员手动评估三个AI开发者基线在DevAI中的应用。

如表2所示，（I）和（D）代表独立性能与考虑任务依赖性的性能。表示多个专家的进化，并且意味着评估使用白盒测试（允许访问生成的workspace、人类收集的轨迹和开源代码库）。

两种性能最好的方法（GPT-Pilot和OpenHands）可以满足大约29%的要求，但只有一项任务可以满足所有要求。

另外，在三位人类评估者之间，他们的个人评估存在大量分歧，说明了单一人类评估的不可靠性。

下图5总结了人类评估和共识评估的不匹配度。

---：智能体评估智能体

根据以往智能体设计的经验，并通过模仿人类评估过程，研究人员涉及了8个模块化交互组件，具体包括：

1 图像模块：构建一个图像，获取项目整个结构，包括文件、模块、依赖项，还可以将代码块分解为代码片段

2 定位模块：识别需求所引用的特定文件夹/文件

3 读取模块：超越了简单的文件解析，支持跨33种不同格式的多模态数据的读取和理解

4 搜索模块：提供了对代码的上下文理解，并且可以快速检索高度相关的代码片段，以及其背后细微差别

5 检索模块：从上下文中提取信息，识别轨迹中相关片段

6 查询模块：确定是否满足给定要求

7 记忆模块：存储历史判断信息，允许智能体基于过去记忆评估

8 规划模块：允许智能体根据当前状态和项目目标制定策略，并排序任务。

具体操作流程，如下图9所示。

下表3展示了，Agent-as-a-Judge在各项任务中始终优于 LLM-as-a-Judge，特别是在那些训在任务依赖关系的情况下。

评判开发者智能体，是一项类别不平衡的任务，满足要求的情况要比失败的情况少的多。

而判断转移和对齐率等指标可能会产生误导。比如，由于MetaGPT很少满足要求， LLM-as-a-Judge很容易将大多数情况识别为负面（在黑盒设置中达到84.15%）。

PR曲线通过平衡精确度和召回率，提供更清晰的性能衡量标准。

这表明，在某些情况下，Agent-as-a-Judge几乎可以取代人类评估员。

最后，在消融研究中，研究人员分析了各种组件的添加，对Agent-as-a-Judge判断OpenHands性能的影响。

参考资料：

https://x.com/tydsh/status/1846538154129375412

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

浙江男子几口下肚，痛到崩溃！“当时觉得特别鲜”，医生：别拿命赌，有毒，没有特效解药

环球网资讯 2026-05-24 07:11:28
830 跟贴 830
仅因店员疏忽漏放吸管，女子多次扔吸管砸店员：惹到我，算你倒霉

星视频 2026-05-24 12:21:15
240 跟贴 240

水蜜桃饮品中水蜜桃添加量0.01克，康师傅回应称符合标准

南方都市报 2026-05-21 19:55:57
1180 跟贴 1180

总决赛打浙江广厦，上海男篮的硬仗才开始

上观新闻 2026-05-24 10:43:24
45 跟贴 45
集中爆发！宁波多地惊现罕见景观！有人半夜11点刷到立马起床出发，连夜奔赴

上观新闻 2026-05-23 11:46:10
817 跟贴 817

特斯拉中国将FSD更名为特斯拉辅助驾驶

每日经济新闻 2026-05-24 13:00:06
880 跟贴 880

乌称俄疑似使用“榛树”导弹打击基辅俄暂未回应

环球网资讯 2026-05-24 11:26:23
728 跟贴 728
进口蛋白粉先涨价再优惠淘宝618大促比日常价格还高

大风新闻 2026-05-23 17:12:31
316 跟贴 316

卖樱桃大爷穿亲手编织的蓑衣，太精致被顾客买下，网友：像艺术品

星视频 2026-05-24 11:14:37
50 跟贴 50
中国沙地奇迹让赛考斯震惊了：Amazing

央视新闻 2026-05-24 21:56:14
170 跟贴 170
广湛高铁上新：广州至湛江北，最低折合149.4元/次

南方都市报 2026-05-24 13:23:52
220 跟贴 220
端午连休三天高速不免费

闪电新闻 2026-05-24 21:04:55
10 跟贴 10
“东北超”开踢，为东北全面振兴注入鲜活动能

中国网 2026-05-24 14:57:04
371 跟贴 371
武契奇刚下飞机就去长城了在纪念品商店买买买

看看新闻Knews 2026-05-24 21:47:25
318 跟贴 318
投喂狮子时观光车车门突然打开！探访八达岭野生动物园：猛兽区投喂项目已关闭，同类观光车停运

红星新闻 2026-05-24 18:07:17
0 跟贴 0
李斌：以前因亮点买车，现在因短板不买车

澎湃新闻 2026-05-24 07:30:26
194 跟贴 194
越南拟禁止2010年后出生者购买或使用烟草制品，旨在打造“越南无烟一代”

潇湘晨报 2026-05-24 13:21:32
183 跟贴 183

刘震云：如果你一听到伴侣说话就烦躁，有股无名火，真正的原因不是你讨厌他，也不是你脾气不好，而是条件反射

刘震云：如果你一听到伴侣说话就烦躁，有股无名火，真正的原因不是你讨厌他，也不是你脾气不好，而是条件反射

脆皮先生

2026-05-13 19:42:42

阿森纳夺冠就翻脸！29 岁巨星仅 500 万甩卖，昔日王牌彻底边缘化

阿森纳夺冠就翻脸！29 岁巨星仅 500 万甩卖，昔日王牌彻底边缘化

澜归序

2026-05-24 05:47:42

输给广厦出局后！周鹏去向曝光，深圳寻求交易广东，租借黄明依？

输给广厦出局后！周鹏去向曝光，深圳寻求交易广东，租借黄明依？

绯雨儿

2026-05-24 12:14:05

俄罗斯让中国心凉？真正恐怖的并非西方围堵，而是我们低估了自己

俄罗斯让中国心凉？真正恐怖的并非西方围堵，而是我们低估了自己

混沌录

2026-04-09 16:27:09

14岁女孩“满是槽点”的生日照，拆穿家长真面目：不偏心也不负责

14岁女孩“满是槽点”的生日照，拆穿家长真面目：不偏心也不负责

妍妍教育日记

2026-05-24 09:30:16

14岁开演唱会，23岁一首歌狂赚2亿，29岁成教授，他如今怎样了？

14岁开演唱会，23岁一首歌狂赚2亿，29岁成教授，他如今怎样了？

飘飘然的娱乐汇

2026-05-18 19:45:05

砸锅卖铁也要拿下！美记：火箭可用申京+小贾交易字母哥

砸锅卖铁也要拿下！美记：火箭可用申京+小贾交易字母哥

爱体育

2026-05-24 23:45:37

No！宣布了！再见徐杰！中国男篮更新大名单

No！宣布了！再见徐杰！中国男篮更新大名单

篮球实战宝典

2026-05-24 22:35:40

开市客入驻京东：官方旗舰店上线

开市客入驻京东：官方旗舰店上线

互联网圈子那点事

2026-05-23 17:49:09

特尔施特根赛季奇遇：随巴萨夺冠却随赫罗纳降级，仅出场两次

特尔施特根赛季奇遇：随巴萨夺冠却随赫罗纳降级，仅出场两次

星耀国际足坛

2026-05-24 21:12:06

俄上万亿高铁项目，不用中国高铁技术，采用锡纳拉集团，如今咋样

俄上万亿高铁项目，不用中国高铁技术，采用锡纳拉集团，如今咋样

梁濆爱玩车

2026-05-24 10:25:43

央视科普的“高钾晚餐”火了！连吃7天，腰围直接缩7cm

央视科普的“高钾晚餐”火了！连吃7天，腰围直接缩7cm

健身狂人

2026-05-22 00:01:54

巴基斯坦总理：我们会取得成功，成为“小中国”

巴基斯坦总理：我们会取得成功，成为“小中国”

观察者网

2026-05-24 21:30:08

越南准备成为下一个乌克兰？一旦中越开战，中国还会手下留情吗？

越南准备成为下一个乌克兰？一旦中越开战，中国还会手下留情吗？

趣味八卦

2026-05-24 21:11:36

韩媒曾警告：一旦东亚开战，韩导弹将降落北京，同时摧毁中国海军

韩媒曾警告：一旦东亚开战，韩导弹将降落北京，同时摧毁中国海军

致敬明天的太阳

2026-05-24 21:34:40

央媒发文，高调官宣张艺谋新身份，全家移民美国改国籍真相大白

央媒发文，高调官宣张艺谋新身份，全家移民美国改国籍真相大白

一盅情怀

2026-05-24 15:46:55

何九华官宣当爸仅1周，王鸥出手“反击”，这下里子面子全丢了

何九华官宣当爸仅1周，王鸥出手“反击”，这下里子面子全丢了

星星没有你亮

2026-05-22 06:54:17

樊振东没想到，惨败遭群嘲后，国乒球员站出来挺他的，竟是林诗栋

樊振东没想到，惨败遭群嘲后，国乒球员站出来挺他的，竟是林诗栋

精彩背后

2026-05-24 23:17:34

访华时间“撞”了？天安门广场挂起中巴中塞国旗！

访华时间“撞”了？天安门广场挂起中巴中塞国旗！

看看新闻Knews

2026-05-24 17:54:07

快讯！乌克兰突然宣布了！

故事终将光明磊落

2026-05-24 14:38:45

AI产业主平台领航智能+时代

15296文章数 66884关注度

往期回顾全部

科技要闻

我戴着摄像头上班，正在帮AI抢走我饭碗

头条要闻

山西矿难遇难者家属:父亲年过半百我们一直劝他别干了

头条要闻

山西矿难遇难者家属:父亲年过半百我们一直劝他别干了

体育要闻

唐斯发牌，大头逆袭：骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万！代言和作品遭抵制

财经要闻

什么情况下，本轮AI大行情会结束？

汽车要闻

国民家轿再上新帝豪向上系列限时5.59万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

艺术

旅游

手机

军事航空

教育要闻

北京一本“守门员”率先出手！流出的这张图把家长看麻了

艺术要闻

砸十几亿，烂十几年！福建福清富创世纪城，还有救吗？

旅游要闻

漫步黄山脚下邂逅茶香与绿野风光（组图）

手机要闻

为什么建议大家赶紧换新机？五点原因，望周知！

军事要闻

深夜美伊谈判传来大消息特朗普最新表态

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版