网易首页 > 网易号 > 正文 申请入驻

Claude都能操纵计算机了,吴恩达:智能体工作流越来越成熟

0
分享至



机器之心报道

编辑:小舟

受 ChatGPT 强大问答能力的影响,大型语言模型(LLM)提供商往往优化模型来回答人们的问题,以提供良好的消费者体验。

随着智能体研究日趋成熟,优化似乎有了新的方向。

人工智能著名学者、斯坦福大学教授吴恩达今天指出:「现在有一种趋势是优化模型以适应智能体工作流程,这将为智能体性能带来巨大提升」,并撰写一篇博客简单阐述了这种趋势。



我们对博客内容进行了不改变原意的编译、整理,以下是博客内容:

继 ChatGPT 在回答问题方面取得突破性成功之后,许多 LLM 的开发都集中在提供良好的消费者体验上。因此,LLM 被调整为回答问题或遵循人类提供的指令。指令调整指导模型的数据集很大一部分可以为人类编写的问题和指令提供更有用的答案,面向 ChatGPT、Claude、Gemini 等等。

但智能体工作负载不同,人工智能软件不是直接为消费者生成响应,而是应该在迭代工作流程中:

  • 反思自己的输出;
  • 使用工具;
  • 编写规划;
  • 在多智能体环境中进行协作。

主要模型制造商也越来越多地优化用于 AI 智能体的模型。

以工具使用(或函数调用)为例。如果 LLM 被问及当前天气,它将无法从训练数据中获取所需的信息。相反,它可能会生成 API 调用请求以获取该信息。甚至在 GPT-4 原生支持函数调用之前,应用程序开发人员就已经使用 LLM 来生成函数调用,通过编写更复杂的提示来告诉 LLM 哪些函数可用,然后让 LLM 生成用于确定是否要调用函数的字符串。

在 GPT-4 之后,生成此类调用变得更加可靠,然后许多其他模型本身就支持函数调用。如今,LLM 可以决定调用函数来搜索信息以进行检索增强生成 (RAG)、执行代码、发送电子邮件、在线下订单等等。

最近,Anthropic 推出了升级版的 Claude 3.5 Sonnet,能像人一样使用计算机。这意味着 LLM 原生使用计算机方向向前迈出了一大步,将帮助许多开发人员。一些团队还致力于让 LLM 使用计算机构建新一代 RPA(机器人流程自动化)应用程序。

随着智能体工作流程的成熟,我看到的是:

  • 首先,许多开发人员正在 prompt LLM 来执行他们想要的智能体行为。这样可以进行快速、丰富的探索!
  • 在极少数情况下,开发非常有价值的应用程序的开发人员将微调 LLM,以更可靠地执行特定的智能体功能。例如,尽管许多 LLM 本身支持函数调用,但它们是通过将可用函数的描述作为输入,然后(希望)生成输出 token 以请求正确的函数调用来实现这一点的。对于生成正确函数调用非常重要的任务关键型应用程序,针对应用程序的特定函数调用微调模型可显著提高可靠性。(但请避免过早优化!我仍然看到太多团队在进行微调,而他们可能应该在采取这种做法之前花更多时间进行 prompt。)
  • 最后,当诸如工具使用或计算机使用之类的能力对开发人员来说似乎很有价值时,主要的 LLM 提供商正在将这些能力直接构建到他们的模型中。尽管 OpenAI o1-preview 的高级推理对消费者有帮助,但我预计它对于智能体推理和规划会更有用。

大多数 LLM 都针对回答问题进行了优化,主要是为了提供良好的消费者体验,我们已经能够将它们「移植」到复杂的智能体工作流程中,以构建有价值的应用程序。为支持智能体中的特定操作而构建 LLM 的趋势将为智能体性能带来很大提升。我相信,在未来几年内,在这个方向上将实现巨大的智能体能力提升。

https://www.deeplearning.ai/the-batch/issue-275/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全球危机! 果然,以色列的噩梦开始了!

全球危机! 果然,以色列的噩梦开始了!

大嘴说天下
2024-11-13 22:26:53
暴跌94%、裁员9000人!中国汽车的劲敌崩了

暴跌94%、裁员9000人!中国汽车的劲敌崩了

财经三分钟pro
2024-11-13 21:18:24
今日起,美团、哈啰单车在郑州市暂停运营

今日起,美团、哈啰单车在郑州市暂停运营

鲁中晨报
2024-11-15 15:52:10
太炸裂!知名演员意外发出“裸照”后秒删,公司回应……

太炸裂!知名演员意外发出“裸照”后秒删,公司回应……

极目新闻
2024-11-14 19:29:16
刚刚!证监会宣布:接管!

刚刚!证监会宣布:接管!

中国基金报
2024-11-15 16:54:35
真没想到,台湾亲民党主席宋楚瑜在接受采访时,竟然语出惊人!

真没想到,台湾亲民党主席宋楚瑜在接受采访时,竟然语出惊人!

现代小青青慕慕
2024-11-13 06:33:18
父亲问单刀怎么没打进,张玉宁:距门将太近挑球不现实,就推远角

父亲问单刀怎么没打进,张玉宁:距门将太近挑球不现实,就推远角

直播吧
2024-11-15 08:16:08
许倬云:我对伟大人物已不再有敬意与幻想

许倬云:我对伟大人物已不再有敬意与幻想

尚曦读史
2024-11-14 15:17:12
冯德莱恩已无法出席,中国接下挑战书,王毅拨通电话,欧盟遭反制

冯德莱恩已无法出席,中国接下挑战书,王毅拨通电话,欧盟遭反制

现代小青青慕慕
2024-11-15 09:34:33
11月14日,日本领先全世界发射了搭载爆震式火箭发动机的火箭

11月14日,日本领先全世界发射了搭载爆震式火箭发动机的火箭

随波荡漾的漂流瓶
2024-11-14 17:45:02
女子顺产不会用力导致脸部毛细血管破裂,瞬间老20岁,老公哭惨了

女子顺产不会用力导致脸部毛细血管破裂,瞬间老20岁,老公哭惨了

风谈笔录
2024-11-15 07:35:12
随着韩国3-1,阿曼1-0,18强赛新死亡之组:国足分到这组出线没戏

随着韩国3-1,阿曼1-0,18强赛新死亡之组:国足分到这组出线没戏

浪子阿邴聊体育
2024-11-15 10:24:18
国足变争二了!日本球迷狂喜:再赢2场进世界杯,希望中国队送3分

国足变争二了!日本球迷狂喜:再赢2场进世界杯,希望中国队送3分

侃球熊弟
2024-11-14 20:10:51
美国民调称80%民众敌视中国,若在中国,喜欢美国的有多少?

美国民调称80%民众敌视中国,若在中国,喜欢美国的有多少?

蜉蝣说
2024-11-15 10:50:05
父亲离世叔伯不要我,大姑父把我领走,20年后,姑父笑了叔伯哭了

父亲离世叔伯不要我,大姑父把我领走,20年后,姑父笑了叔伯哭了

民间精选故事汇
2024-11-14 12:10:02
当张玉宁踢巴林获得单刀时,看看韦世豪在干什么,引发球迷热议

当张玉宁踢巴林获得单刀时,看看韦世豪在干什么,引发球迷热议

我就爱说足球
2024-11-15 11:33:55
韩国人打算在三天内玩遍中国,没料到一桌水果就让他们停下脚步

韩国人打算在三天内玩遍中国,没料到一桌水果就让他们停下脚步

浮岛余生
2024-11-15 10:37:20
吴道闻,任上落马

吴道闻,任上落马

鲁中晨报
2024-11-15 16:20:09
36岁景甜手术后近况曝光,拄着拐杖上厕所都难,素颜依旧很好看

36岁景甜手术后近况曝光,拄着拐杖上厕所都难,素颜依旧很好看

阿桥侃娱乐
2024-11-13 09:49:33
慈世平:詹姆斯如果打满24年以上,他将超越乔丹成为GOAT

慈世平:詹姆斯如果打满24年以上,他将超越乔丹成为GOAT

懂球帝
2024-11-15 15:22:11
2024-11-15 17:50:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
9705文章数 142059关注度
往期回顾 全部

科技要闻

奇瑞董事长夸余承东:你改名余成功吧

头条要闻

多人称网购黄金后"麦多多"失联不发货 案值或超千万

头条要闻

多人称网购黄金后"麦多多"失联不发货 案值或超千万

体育要闻

我们究竟需要一支怎样的国家队?

娱乐要闻

俞灏明迎37岁生日,疑似与王晓晨相恋

财经要闻

GDP唯一负增长!这个经济特区难了

汽车要闻

配易四方+云辇-Z系统 仰望U7于广州车展亮相

态度原创

房产
教育
数码
游戏
军事航空

房产要闻

最新房价!海口新房,年内新低!但二手房,开始回暖!

教育要闻

【今日话题】又一学校暴雷!因拖欠工资遭教师集体罢课,学校账户已被冻结、国家为什么没钱了?

数码要闻

华硕推 Prime RTX 4070 Ti Super 显卡:符合 RTX SFF Ready 规范

《暗喻幻想》路易为最先设计的角色 反派也有魅力

军事要闻

特朗普发表讲话:俄乌战争必须停止

无障碍浏览 进入关怀版