网易首页 > 网易号 > 正文 申请入驻

田渊栋团队新作祭出Agent-as-a-Judge!AI智能

0
分享至

新智元报道

编辑:桃子

【新智元导读】AI评估AI可靠吗?来自Meta、KAUST团队的最新研究中,提出了Agent-as-a-Judge框架,证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间,还提供丰富的中间反馈。

AI智能体,能否像人类一样有效地评估其他AI智能体?

对于AI智能体来说,评估决策路径一直是棘手的问题。

已有的评估方法,要么只关注结果,要么要要过多的人工完成。

为了解决这一问题,田渊栋、Jürgen Schmidhuber带领的团队提出了「Agent-as-a-Judge」框架。

简言之,让智能体来评估智能体系统,让AI审AI。

它不仅可以减少97%的成本和时间,还能提供丰富的中间反馈。

这是「LLM-as-a-Judge」框架的有机延伸,通过融入智能体特性,能够为整个任务解决过程提供中间反馈。

论文地址:https://arxiv.org/abs/2410.10934v1

研究人员提出了DevAI基准,为全新框架提供概念验证测试平台。包含55个真实的AI开发任务,带有详细的手动注释。

通过对三个领先的智能体系统进行基准测试,发现它大大优于「LLM-as-a-Judge」框架。

总之,这项研究真正的变革之处在于:它提供了可靠的奖励信号,为可扩展的、自我改进的智能体系统铺平了道路。

「法官」智能体,击败大模型

现有评估方法,无法为智能体系统的中间任务解决阶段,提供足够的反馈。

另一方面,通过人工进行更好的评估,代价太大。

而智能体系统的思考方式,更像人类,通常是逐步完成,并且在内部经常使用类人的符号通信来解决问题。

因此,智能体也能够提供丰富的反馈,并关注完整的思考和行动轨迹。

「Agent-as-a-Judge」不仅保留了「LLM-as-a-Judge」成本效益,还具备智能体特性,使其在整个过程中提供中间反馈。

下图展示了,大模型、智能体、人类作为评判者的示意图。

DevAI:自动化AI开发数据集

另外,在代码生成领域,基准测试的发展也落后于智能体系统的快速进步。

比如,HumanEval仅关注算法问题,而MBPP则处理简单的编程任务,但这两者都没有反映出开发者面临的最实际的挑战。

作为一个改进,SWE-Bench基准确实引入了GitHub现实问题,提供一种全新评估的方法。

不过,它仍需要关注自动修复任务的开发过程。

为了解决当前代码生成基准测试中的上述问题,研究人员引入了DevAI:AI开发者数据集,其中包含55个由专家注释者创建的真实世界综合AI应用开发任务。

DevAI结构是这样的:智能体系统首先接收用户查询以开始开发,然后根据AI系统满足需求的程度来评估它,其中偏好作为可选的、较为柔性的标准。

图3展示了DevAI任务的一个例子。

DevAI中的任务规模相对较小,但涵盖了常用的关键开发技术。

如图2所示,任务被标记并覆盖了AI的多个关键领域:监督学习、强化学习、计算机视觉、自然语言处理、生成模型等。

每个任务都是,可能交给研究工程师的真实世界问题,并降低了在这个基准上评估方法的计算成本。

接下来,研究人员将领先的开源代码生成智能体框架,应用于DevAI中的任务:MetaGPT、GPT-Pilot、OpenHands。

他们让人类评判者、大模型评判者、以及智能体评判者框架,来评估其性能。

结果如表1所示,MetaGPT最具成本效益(1.19美元),而OpenHands是最昂贵的(6.38美元)。

从开发时间来看,OpenHands完成任务平均耗时362.41秒,而GPT-Pilot耗时最长,为1622.38秒。

平均而言,使用这三者之一对DevAI进行完整评估,大约需要210.65美元和14小时才能完成。

Human-as-a-Juge:DevAI手动评估

为了确定DevAI的实用有效性,并准确估计当前最先进的智能体系统实际代码生成能力,研究人员手动评估三个AI开发者基线在DevAI中的应用。

如表2所示,(I)和(D)代表独立性能与考虑任务依赖性的性能。表示多个专家的进化,并且意味着评估使用白盒测试(允许访问生成的workspace、人类收集的轨迹和开源代码库)。

两种性能最好的方法(GPT-Pilot和OpenHands)可以满足大约29%的要求,但只有一项任务可以满足所有要求。

另外,在三位人类评估者之间,他们的个人评估存在大量分歧,说明了单一人类评估的不可靠性。

下图5总结了人类评估和共识评估的不匹配度。

---:智能体评估智能体

根据以往智能体设计的经验,并通过模仿人类评估过程,研究人员涉及了8个模块化交互组件,具体包括:

1 图像模块:构建一个图像,获取项目整个结构,包括文件、模块、依赖项,还可以将代码块分解为代码片段

2 定位模块:识别需求所引用的特定文件夹/文件

3 读取模块:超越了简单的文件解析,支持跨33种不同格式的多模态数据的读取和理解

文章转载:[for.share.zjncyz.com)

4 搜索模块:提供了对代码的上下文理解,并且可以快速检索高度相关的代码片段,以及其背后细微差别

文章转载:[for.share.zhuoyinyuan.com)

5 检索模块:从上下文中提取信息,识别轨迹中相关片段

文章转载:[for.share.zhenfengsm.com)

6 查询模块:确定是否满足给定要求

文章转载:[for.share.fanglilai.net)

7 记忆模块:存储历史判断信息,允许智能体基于过去记忆评估

文章转载:[for.share.0817lawyer.com)

8 规划模块:允许智能体根据当前状态和项目目标制定策略,并排序任务。

文章转载:[for.share.chuangyilighter.com)

具体操作流程,如下图9所示。

文章转载:[for.share.aipowerschool.com)

下表3展示了,Agent-as-a-Judge在各项任务中始终优于 LLM-as-a-Judge,特别是在那些训在任务依赖关系的情况下。

文章转载:[for.share.jifengdm.com)

评判开发者智能体,是一项类别不平衡的任务,满足要求的情况要比失败的情况少的多。

文章转载:[for.share.jushengguanggao.com)

而判断转移和对齐率等指标可能会产生误导。比如,由于MetaGPT很少满足要求, LLM-as-a-Judge很容易将大多数情况识别为负面(在黑盒设置中达到84.15%)。

文章转载:[for.share.junyongfangzhi.com)

PR曲线通过平衡精确度和召回率,提供更清晰的性能衡量标准。

文章转载:[for.share.jinfengfeiye.com)

这表明,在某些情况 下,Agent-as-a-Judge几乎可以取代人类评估员。

文章转载:[for.share.jdsmsc688.com)

最后,在消融研究中,研究人员分析了各种组件的添加,对Agent-as-a-Judge判断OpenHands性能的影响。

文章转载:[for.share.iw.com)

参考资料:

文章转载:[for.share.hzjjdulou.com)

https://x.com/tydsh/status/1846538154129375412

文章转载:[for.share.hyylmh.com)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本网友票选最让人绝望的5位反派BOSS,第一名是90后的童年阴影

日本网友票选最让人绝望的5位反派BOSS,第一名是90后的童年阴影

坠入二次元的海洋
2024-12-02 11:59:54
新华社消息|中俄东线天然气管道全线贯通

新华社消息|中俄东线天然气管道全线贯通

新华社
2024-12-03 09:45:13
80万的房子,沈先生69万就买了,却被朋友告知:这房子有3个问题

80万的房子,沈先生69万就买了,却被朋友告知:这房子有3个问题

靓仔情感
2024-12-01 07:50:07
妈妈偷偷在校服上绣一根葱,被女儿发上网,网友:感觉自己是废物

妈妈偷偷在校服上绣一根葱,被女儿发上网,网友:感觉自己是废物

晴晴给你讲故事
2024-11-27 17:07:22
一夫一妻制将消亡?2025年后,这3种婚恋模式,将席卷中国各地

一夫一妻制将消亡?2025年后,这3种婚恋模式,将席卷中国各地

巢客HOME
2024-12-02 19:13:21
全球首个不限癌种天价抗癌药拉罗替尼纳入医保,横扫25类癌种!

全球首个不限癌种天价抗癌药拉罗替尼纳入医保,横扫25类癌种!

荷兰豆爱健康
2024-12-02 14:34:16
国务院国资委、国家发改委:支持国有资本运营公司等符合条件的企业发起设立创业投资母基金

国务院国资委、国家发改委:支持国有资本运营公司等符合条件的企业发起设立创业投资母基金

澎湃新闻
2024-12-02 16:47:12
一点基因没浪费!沈月高颜值亮相,五官长相和邱淑贞如粘贴复制

一点基因没浪费!沈月高颜值亮相,五官长相和邱淑贞如粘贴复制

娱乐圈十三太保
2024-12-02 16:50:47
做了五年的医药代表,她讲述那些无奈和艰辛,付出的不仅仅是身体

做了五年的医药代表,她讲述那些无奈和艰辛,付出的不仅仅是身体

吴学华看天下
2023-11-14 10:54:41
快船险胜掘金:哈登39+9+11破3000三分 约基奇28+14+11

快船险胜掘金:哈登39+9+11破3000三分 约基奇28+14+11

醉卧浮生
2024-12-02 13:28:18
马龙:哈登为快船的进攻做了所有关键的决定 他能通过组织击败你

马龙:哈登为快船的进攻做了所有关键的决定 他能通过组织击败你

直播吧
2024-12-03 00:06:07
超级中学作息曝光, 刺痛多少人:我们低估这代孩子的辛苦, 他们是最可怜的一群人

超级中学作息曝光, 刺痛多少人:我们低估这代孩子的辛苦, 他们是最可怜的一群人

蓝橡树
2024-11-25 07:36:03
被恒大坑苦的几大装修老板,只有他提前醒悟,落袋14.6亿安全离场

被恒大坑苦的几大装修老板,只有他提前醒悟,落袋14.6亿安全离场

校长侃财
2024-12-01 11:06:25
史诗级降雨将澳大利亚内陆变成巨大的湿地网络

史诗级降雨将澳大利亚内陆变成巨大的湿地网络

cnBeta.COM
2024-12-01 19:28:07
7换1报价森林狼?爱德华兹才是火箭的终极答案!

7换1报价森林狼?爱德华兹才是火箭的终极答案!

田先生篮球
2024-12-02 22:13:44
离岸人民币兑美元跌破7.30关口

离岸人民币兑美元跌破7.30关口

每日经济新闻
2024-12-03 09:39:07
证监会降温股市!12月3日,周二的四大消息正式传来!

证监会降温股市!12月3日,周二的四大消息正式传来!

风口招财猪
2024-12-03 01:50:03
哪吒汽车CEO张勇已离职?官方回应:并未离职,公司一切正常

哪吒汽车CEO张勇已离职?官方回应:并未离职,公司一切正常

每日经济新闻
2024-12-02 19:13:03
张雪峰:如果你不好好学习,一旦掉入社会底层.....

张雪峰:如果你不好好学习,一旦掉入社会底层.....

华人星光
2024-11-15 12:36:37
政府发文,工资要全面上涨了?你能涨多少?

政府发文,工资要全面上涨了?你能涨多少?

巢客HOME
2024-12-03 05:50:03
2024-12-03 12:03:00

科技要闻

英特尔CEO基辛格“下课”,立即生效!

头条要闻

山西孝义一政府工程项目投资2.83亿 设计费就超500万

头条要闻

山西孝义一政府工程项目投资2.83亿 设计费就超500万

体育要闻

二轮秀场均20+ 他硬生生练成了CBA最强

娱乐要闻

王宝强被指忽悠小演员签“卖身契”

财经要闻

刘世锦:扩大消费需求要找准重点或痛点

汽车要闻

迎来拐点,阿维塔其实早就明牌了

态度原创

房产
艺术
数码
公开课
军事航空

房产要闻

海口楼市开启大反攻!10盘爆卖千套,11月销量榜曝光!

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

数码要闻

华擎B580显卡评测样品曝光:2.5 槽厚、2.8GHz、375W 功耗

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

古特雷斯就叙利亚局势发表声明

无障碍浏览 进入关怀版