网易首页 > 网易号 > 正文 申请入驻

Claude发布一套智能体构建指南

0
分享至


文:王智远 | ID:Z201440

上周五,2024年12月20日。

Anthropic这家AI公司发布一份报告,题目是《Building effective agents》(构建高效的智能代理)。

你可能没听过Anthropic,但他们的产品你可能知道,比如Claude系列的AI助手,有Claude 3.5 Haiku和Claude 3.5 Sonnet等等。

这份报告,是基于他们过去一年与数十个团队合作构建LLM(大语言模型)代理系统的经验总结。我周末看了,大概有五点内容:

一,对代理系统Agents的定义;二,讨论什么时候用代理系统;三,五种核心的工作流模式;四,一些现实中的例子。最后,给开发者提供一些实践认知。

我觉得内容对开发者,或者对智能体、工作流感兴趣的人挺有帮助;所以,把有价值的内容理解后,跟你汇报下。

01

Agents不少人听过,Anthropic这家公司怎么理解的呢?他们认为,代理可以有很多种定义。

有些客户把代理看作是完全独立的系统,可以长时间自主运行,使用各种工具来完成复杂的任务;另一些客户则把这个词用来描述那些按照预先设定的流程运行的系统。

在Anthropic,把所有这些不同的形式都叫做代理系统(agentic systems),但在工作流(Workflows)和代理(Agents)之间,有很大的区别。

区别在哪呢?

工作流,是提前写好的代码来协调人和工具的系统;代理是自己动态管理自己的流程和工具使用,保持对完成任务方式的控制。

这种区别很重要,因为它帮我们理解了代理系统的本质:即,不是所有的AI辅助系统都得完全自主,有时候一个提前设定好的工作流更适合某些情况「1P」。

那么,什么时候该用工作流、什么时候该用智能体?

其认为,如果任务定义得很清楚,工作流更适合,因为它能提供可预测性和一致性。

如果要大规模的灵活性和模型驱动的决策,代理是更好的选择,但对很多应用来说,优化单个LLM调用,配合检索和上下文示例通常就够用了。

通俗的说:工作流更适合任务明确、步骤固定的工作。就像你按照食谱做菜,每一步都写得清清楚楚,只要跟着做就行了。

而智能体适合要灵活应对、随机应变的情况。比如:你要去一个新城市冒险,没有固定的路线,要根据实际情况来决定下一步怎么走,此时,智能体能帮你在复杂多变的环境中做出决策「2P」。

关于定义,这是第一部分内容。第二部分是什么呢?

Anthropic提出,目前,看到市面有四种流行开发框挺火。分别是:LangChain的LangGraph、Amazon Bedrock的AI Agent框架、Rivet和Vellum。

相信你看到名字有些理解不透,别着急,我和你一样,于是,索性查了一下。

先说说LangChain。它是一个工具,帮我们创建和管理语言模型(LLM)的工作流。你可以把它想象成一个图表,帮开发者把不同的任务和步骤连起来,这样,就能清楚地知道每一步该怎么做,调整起来也方便。

接下来是Amazon Bedrock的AI Agent框架。

这是亚马逊提供的一个框架,像一个工具箱,里面有很多现成的工具和资源;帮开发者快速搭建智能应用,你可以用它来设计和运行各种AI任务,不用从头开始。

然后是Rivet,它是一个拖放式的图形用户界面(GUI)工具,专门用来构建语言模型的工作流。

我们可以把它想象成拼积木一样,把不同的功能和步骤拖到一起,形成一个完整的工作流程,这种方式简单直观,适合不太会编程的人。

最后是Vellum,它也是一个图形用户界面工具,主要是用来构建和测试复杂的工作流;设计完成后,你可以在Vellum里测试,确保一切正常运行。就像一个实验室,让你可以在里面尝试各种方案。

总的来说,四个工具区别在于:LangGraph用图表连接任务和步骤;Amazon Bedrock的AI Agent框架提供全面的工具箱,让开发者不用从零开始;Rivet是一个拖放式的GUI工具,适合不懂编程的人;Vellum专注于复杂工作流的设计和测试。

Anthropic给了一个建议:

开发者可以先直接用LLM API来开发,因为很多功能用几行代码就能搞定;如果要用框架,一定要弄懂底层代码,要小心,框架可能会让调试变难,别因为框架功能多就乱加复杂性。

们还特别提醒,客户常犯的一个错误是,对框架底层实现有误解。这告诉我们,工具只是帮手,真正重要的是理解背后的道理。

所以,结论是:一,框架确实能让一些基本任务变简单,比如调用LLM、定义和解析工具、链接调用,但框架不应该成为我们增加不必要复杂性的理由;二,保持系统简单、好维护、好调试,这才是最重要的。

02

第三部分,报告中详细介绍五种核心工作流模式。

这部分很重要,首先提到,提示链式工作流(Prompt chaining)。怎么理解?

想象一下,你要完成一个复杂的写作任务,比如写一篇很棒的营销文案。你可能先写个大纲,检查一下大纲合不合格,然后,再根据大纲写出完整的文案。

这种工作流的要点是,把一个大任务拆成一连串的小步骤。每个步骤都是一个LLM调用来处理的,而且后面的步骤会用前一个步骤的结果作为输入「4P」。

在这个过程里,你还可以加一些检查点(报告里叫“gate”),确保一切都在正确的轨道上。

这种工作流最适合能明确分成几个固定小任务的情况。主要目的是让每个LLM调用都专注于更简单的任务,提高整体的准确性,虽然可能会多花点时间。



具体例子是:

文档写作流程:第一步,生成文档大纲;第二步,检查大纲是否符合特定标准;第三步,基于审核过的大纲写完整文档。

优势是每个步骤都专注做一个任务,提高准确性;可以在关键点加质量检查;流程清晰,容易调试和优化。

第二种是:路由工作流(Routing)。

这个模式挺有意思,处理很多用户请求时,会遇到各种各样的问题;有的问题简单,有的要专业技术支持,还有的可能涉及到退款这种敏感操作。

路由工作流,它关键是先对问题进行分类,然后引导到最合适的处理流程,这样做的好处很明显:可以针对不同类型的任务优化不同的处理方式,而不是用一个通用的办法来应对所有情况「5P」。



举个例子:

客户服务系统里,收到用户的问题后,路由工作流可以先判断这是个一般问题、退款请求还是技术支持需求,然后分别引导到不同的处理流程。

更聪明的是,它还能根据问题的复杂度选择用不同能力的模型。比如,简单常见的问题可以交给像Claude 3.5 Haiku这样快速的模型处理,复杂或不常见的问题可以交给像Claude 3.5 Sonnet这样强大的模型来解决。

这样既能保证服务质量,又能优化成本和速度,关键是,这种分类可以通过LLM来完成,也可以用传统的分类模型或算法。

所以,它的优势在于灵活性和可扩展性,随着业务的发展,你可以轻松添加新的分类和处理流程,不会影响现有的功能。

03

第三种,是并行化工作流(Parallelization),这个模式适合要同时处理好多任务。

比如:你在做一个大项目,得同时考虑好几个方面;类似于开发软件,要一个模型来检查用户输入的安全性,同时另一个模型来生成代码。

并行化工作流,就是为了应对这种要同时做多件事的情况设计。



报告里说,并行化主要有两种实现方式:

一,把任务拆成独立的小任务,让它们同时进行,这样可以省时间;二,通过投票机制,让好几个模型处理同一个任务,然后汇总结果;这样做的好处是,你能从不同的角度得到不同的输出,提高结果的可信度「6P」。

总的来说,它像一个多功能团队,每个人都做自己最擅长的事,一起合作,最后得到一个更强的结果。

协调者工作者工作流(Orchestrator-workers)是什么?

你在组织一场音乐会,总得有个人来管大局,确保每个细节都能顺利进行,这个人就像「协调者」。

其他人就负责具体的活儿,比如:调音响、弄灯光、卖票这些,他们就是“工作者”,协调者得根据现场情况灵活调整谁干什么。

报告里说,协调者-工作者工作流的点子是一个中央LLM(就是协调者)来动态分配任务,让好多工作者LLM去完成这些任务。

这样,协调者能根据实际情况,灵活决定要做哪些小活儿,而不是一开始就把步骤都定死了。



这个模式适合你没法提前知道具体要干啥的情况,比如软件开发里的编程任务,每次根据需求,可能要改好多文件,协调者就能根据实际情况决定哪些活儿先干,哪些可以放一放。

总之,协调者-工作者工作流就像是一位指挥家。

接下来说说第五种:评估者-优化者工作流(Evaluator-optimizer),这个模式适合要反复改进和反馈的任务。

比如:你写文章,可能先写个草稿,然后请朋友看看,提提意见;你根据意见再修改,让文章更好。这个过程就跟评估者-优化者工作流差不多。

再举个例子,我们搜一个东西可能要好几轮;评估者工作流,会看看现在的搜索结果满不满足要求,不满足继续搜,直到找到想要的信息。



报告里说,这种工作流的关键是循环:

一个LLM先给出初步的回应,另一个LLM来评估这个回应,然后提供反馈,这个过程可以一遍遍重复,直到得到一个更好的结果「8P」。

好处在于它可以一遍遍改进,通过不断的反馈和调整,最后的输出质量能提高很多;所以,评估者-优化者工作流就像一个严格的编辑,帮你把文章改得更好。

以上五种核心工作流模式,你对哪一种印象比较深?

记不住也没关系,有一个办法是,用个人工作的方式,去嵌入几种模式中,看看哪些业务、项目、任务适合哪一种。

04

第四部分主要讲述了:智能代理怎么工作。其提到:

代理会先根据用户的命令或者和用户的互动,来搞清楚要干啥。一旦任务明确,代理就自己开始干活。

干活时,代理得知道周围的情况,比如用工具得到的结果或者代码运行的反馈,这样它才能知道自己干得怎么样。

如果代理在干活的时候碰到难题,它可以停下来,找人问问,确保任务能顺利完成;任务干完了就结束了,但也可以先设定好一些停止的条件,比如最多干多少次,这样能控制整个过程「9P」。



在第10页中,Anthropic给了一些实际例子。

他们强调,代理特别适合处理开放性的问题,尤其是步骤不好预测的任务。因为代理能自己干活,所以,在信任它们的地方,它们能帮大忙。

比如:有个编码代理,用来解决软件工程里的任务,代理自己先看看哪些文件需要改,然后反馈出来,这样能大大提高开发的速度。

这就是第四部分。最后,第五部分里,Anthropic给出了一套开发工具的好点子,他们觉得:

一,工具在代理系统里特别重要。它们能让代理和外面的服务、API好好交流;所以,工具设计和做出来时要清楚明白,这样代理用起来才顺手「13P」。

二,开发者得给模型足够的时间思考。别让模型在生成输出的时候卡壳,工具的输入格式和参数描述要简单明了,这样模型才能更好地理解和用这些工具。

三,工具的定义和规格要和整体的提示工程一样重视。

开发者要考虑不同格式对模型表现的影响。比如:在编辑文件时,可以选择用差异格式或者重写整个文件,要确保选的格式能让模型更容易生成正确的输出。

报告还建议要多做测试,观察模型怎么用工具,然后根据测试结果不断改进工具的设计,通过运行好多示例输入,开发者可以发现模型可能犯的错误,然后改进。

最后,创建一个好的代理计算机接口(ACI)也很重要,开发者要确保工具用起来简单直接,这样用户体验才好;通过这些方法,Anthropic希望能帮开发者在开发工具的时候避开常见的坑,确保代理系统能高效运行。

总结

你认为哪些有启发?

我认为最重要部分关于工作流。这五种,何尝不是由浅入深的一种模式呢?用它来映入个人工作流程,亦是如此。

注释:

[1].Anthropic. Building effective agents. 2024.12.20;地址:https://www.anthropic.com/research/building-effective-agents



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
气质不错,穿啥都好看!来一起学习办公室美女的优雅穿搭!

气质不错,穿啥都好看!来一起学习办公室美女的优雅穿搭!

人情皆文史
2024-11-23 01:21:02
全体股民要做好准备!A股突发三大消息!明天会是黑色星期二吗?

全体股民要做好准备!A股突发三大消息!明天会是黑色星期二吗?

云姐财说
2024-12-23 16:11:35
郑嘉颖岳父母首出镜,妻子一人做12道大菜,3个儿子帅气都是卷毛

郑嘉颖岳父母首出镜,妻子一人做12道大菜,3个儿子帅气都是卷毛

老鹈爱历史
2024-12-23 11:19:53
我是上海人,发现上海人只喜欢抽这4种烟,喝这4种酒,您认为呢

我是上海人,发现上海人只喜欢抽这4种烟,喝这4种酒,您认为呢

二月侃史
2024-12-19 16:18:11
23号午评:预判全对!所有人都注意了,接下来这么做才对!

23号午评:预判全对!所有人都注意了,接下来这么做才对!

春江财富
2024-12-23 12:17:36
澳门回归晚会深受启发!网友:建议春晚请科学家唱歌,航天员表演

澳门回归晚会深受启发!网友:建议春晚请科学家唱歌,航天员表演

魔都姐姐杂谈
2024-12-23 11:50:52
大S女儿近照曝光,身形变壮比汪小菲还高,过个马路还要保姆牵着

大S女儿近照曝光,身形变壮比汪小菲还高,过个马路还要保姆牵着

小seven的囧囧啊
2024-12-23 16:39:50
央视春晚彩排人员曝光!蒋欣穿黑羽绒服现身,另一位是春晚常客

央视春晚彩排人员曝光!蒋欣穿黑羽绒服现身,另一位是春晚常客

飞花文史
2024-12-23 08:56:07
惠特摩尔谈空接暴扣:我会让申京的传球看起来不错 让扣篮也不错

惠特摩尔谈空接暴扣:我会让申京的传球看起来不错 让扣篮也不错

直播吧
2024-12-23 12:52:13
《现在就出发2》笑点太密集,黄sir走了,新哥来了!

《现在就出发2》笑点太密集,黄sir走了,新哥来了!

比利
2024-12-23 17:08:14
美股科技股盘前普涨,特斯拉、高通涨超3%, 博通、超微电脑、AMD、英伟达等全线走高

美股科技股盘前普涨,特斯拉、高通涨超3%, 博通、超微电脑、AMD、英伟达等全线走高

每日经济新闻
2024-12-23 17:10:08
66岁香港大叔娶湖南80后女子,25天闪婚给700万买房,遗嘱已写好

66岁香港大叔娶湖南80后女子,25天闪婚给700万买房,遗嘱已写好

鲸探所长
2024-12-22 21:05:03
切换!变盘前夕?周二,A股会有大级别回调吗

切换!变盘前夕?周二,A股会有大级别回调吗

郭小凡财经
2024-12-23 15:19:16
雷蒙多卸任前认同中国观点,就对华芯片管制说了实话

雷蒙多卸任前认同中国观点,就对华芯片管制说了实话

朗威游戏说
2024-12-23 16:32:15
今晚开播!又一青春剧来袭,演员阵容不错,网友:有剧可追了

今晚开播!又一青春剧来袭,演员阵容不错,网友:有剧可追了

喜欢农家生活的阿律
2024-12-23 16:36:13
老公突然开始健身意味着啥?评论太丰富,给我笑麻了,都是人才呀

老公突然开始健身意味着啥?评论太丰富,给我笑麻了,都是人才呀

滑稽斑马呀
2024-12-18 16:02:07
广东新援回归首秀,山西或遭重罚!丁彦雨航参加体测,高诗岩复出

广东新援回归首秀,山西或遭重罚!丁彦雨航参加体测,高诗岩复出

懂球社
2024-12-23 09:43:26
以后子女继承房产,要20%的遗产税?财政部回复来了

以后子女继承房产,要20%的遗产税?财政部回复来了

巢客HOME
2024-12-21 08:40:03
一人打爆山西队三大内线!全场命中率百分之百 他配得上男篮集训

一人打爆山西队三大内线!全场命中率百分之百 他配得上男篮集训

体坛热消息
2024-12-23 08:33:55
“饭局上,领导说“加个微信吧”,千万别回“我扫您还是您扫我”,高情商做法来了”

“饭局上,领导说“加个微信吧”,千万别回“我扫您还是您扫我”,高情商做法来了”

财经三分钟pro
2024-12-08 09:01:17
2024-12-23 17:55:00
智远同学 incentive-icons
智远同学
畅销书《复利思维》作者;精神生活与商业探索,关注科技人文、消费电商、品牌营销、商业认知思维等方面。
328文章数 86关注度
往期回顾 全部

科技要闻

官宣!本田日产达成基本协议:考虑整合

头条要闻

媒体:特朗普发出最强烈信号 反对TikTok退出美国市场

头条要闻

媒体:特朗普发出最强烈信号 反对TikTok退出美国市场

体育要闻

年终进球盛宴!这法老冲着金球奖来的?

娱乐要闻

影版《射雕》最新预告!肖战版郭靖大获好评

财经要闻

起底黑色产业链:信息黑洞出卖个人隐私

汽车要闻

柴油才对味 大通星际X 2.5T舒适得不像皮卡

态度原创

游戏
本地
时尚
公开课
军事航空

【鸣潮】IGN实机可能只有十分钟,但IGN实机有十分钟不太可能

本地新闻

好吃潮州|潮州腐乳饼,咸甜党都沦陷了

“红色”单品美艳又火热,冬日助你打造百变造型,美得更大气

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

专家解读美军为何会击落己方战机

无障碍浏览 进入关怀版