网易首页 > 网易号 > 正文 申请入驻

哥伦比亚大学:超越Chatgpt的AI agent综述,关于AI智能体的演进、关键技术与未来发展

0
分享至

“欧米伽未来研究所”关注科技未来发展趋势,研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。()

来源:欧米伽未来研究所

本报告由哥伦比亚大学周瑜(Zhou (Jo) Yu)及Arklex AI团队撰写,系统探讨了AI智能体(AI Agents)的演进、关键技术与未来发展方向。

在人工智能飞速发展的当下,AI 智能体正逐渐成为备受瞩目的焦点。从传奇人物比尔・盖茨到知名学者吴恩达、山姆・奥特曼,他们都对 AI 智能体的潜力寄予厚望,认为其将掀起计算领域继图形用户界面之后的又一场重大革命,引领 AI 取得巨大进步。那么,AI 智能体究竟是什么?它又有着怎样的神奇之处呢?

AI 智能体:智能交互新范式

AI 智能体是一种能够感知环境、进行思考和推理、做出决策并执行相应行动的人工智能系统。它就像是拥有 “智慧大脑” 的数字精灵,可以接收文本、图像、音频等多种模态的输入信息,如同人类通过各种感官感知世界一样。接着,借助大语言模型(LLM)的强大能力,智能体能够进行思维链推理,规划出行动步骤,这一过程如同人类在面对问题时思考解决方案。而且,智能体还具备反思能力,能够根据行动的结果进行元推理,不断优化自己的行为。

从应用层面来看,AI 智能体的发展可划分为多个阶段。最初是 “Just Wanna Chat” 阶段,智能体仅能简单地基于自身知识回应人类提示,如同一个知识储备有限的聊天伙伴。随着发展,进入 “Your Work Assistant” 阶段,它演变成以 LLM 为核心的软件系统,能辅助完成现实世界的任务,例如帮助人们处理工作中的文档撰写、数据整理等事务。再进一步,“Agent-as-a-Service” 阶段的智能体成为以服务为中心的系统,能自动化执行预定义的工作流程,大大提高工作效率。更高级的 “Autonomous Agents” 阶段,智能体具备高度自主性,在日常任务中几乎无需人类监督,如同一个可靠的工作伙伴。而最理想的 “Human, hold my beer” 阶段,智能体类似达到 L5 级自动驾驶水平的系统,实现真正的自主决策和行动,在复杂环境中灵活应对各种任务。

模型自我提升:解锁智能新高度

在 AI 智能体的发展进程中,模型自我提升至关重要。以往研究发现,通过提示进行自我提升的方法对小型语言模型(LM)效果不佳,小型 LM 存在无法通过提示实现自我提升,也难以从 LLM 的示范中学习 “自我提升” 能力等问题。

为解决这些难题,研究人员提出了创新方法。他们把 “自我提升” 视为一个可学习的任务,将 LLMs 或 Python 脚本当作教师模型。具体操作中,先让小型 LM 尝试解决问题,教师模型根据尝试结果给出反馈并修改,之后把这种互动经验重新用于训练小型 LM。这一过程就像是学生在老师的指导下不断改进自己的解题方法。通过这种方式生成 “自我提升” 数据,再利用这些数据训练小型 LM,显著提升了模型的性能。

在多步算术、单词排序、日期理解和逻辑演绎等复杂任务测试中,采用这种方法训练的模型表现出色。比如在多步算术任务上,经过多次迭代训练的模型,准确率大幅提高。这表明让模型在没有人类监督的情况下提升性能是可行的,不过目前该方法也存在一定局限,比如需要强大的编辑 LLM 进行监督。

树搜索策略:增强模型决策力

许多对话任务本质上是决策过程,为提升模型在这些任务中的决策能力,研究人员引入了树搜索策略。借鉴国际象棋等游戏中的前瞻搜索思想,在对话决策过程中,模型可以通过树搜索来探索多种可能的行动方案。具体来说,就是借助 LLM 来搜索有前景的行动、模拟行动结果、评估行动质量,并更新对每个行动质量的估计。

以劝说任务为例,研究人员使用 “Prompt-Based Monte-Carlo Tree Search for Goal-oriented Dialogue Policy Planning”(GDP-Zero)方法,在劝说人们向慈善机构捐款的任务中,该方法生成的策略比基础 LLM 更具说服力,提高了对话任务的成功率。这一策略不仅使聊天机器人的捐款概率、增强捐款意愿、提出有力论据等方面表现更优,还能避免过度急切地提出捐款请求,采用更平衡的策略,融合情感和逻辑诉求,从而更好地达成劝说目标。不过,目前该策略在对话任务之外的扩展应用,以及如何将改进后的行为通过训练反馈到模型中,仍是有待解决的问题。

强化学习与探索式学习:驱动智能体进化

在与计算机交互的视觉语言模型(VLM)任务中,研究人员面临着巨大挑战,因为传统 VLM 预训练并未涉及与计算机的交互。为提升智能体在这类任务中的表现,研究人员提出了两种关键方法:基于对比自反思的蒙特卡洛树搜索(R-MCTS)和探索式学习。

R-MCTS 在执行任务时,通过树搜索寻找最优行动轨迹,任务完成后进行对比自反思,分析行动的优劣,从而改进未来的执行效果。在 VisualWebArena 和 OSWorld 等基准测试中,R-MCTS 表现卓越,超越了其他搜索算法,在 VisualWebArena 上达到了新的最优成绩,在 OSWorld 上也极具竞争力。探索式学习则通过对树遍历进行训练,让智能体在探索、评估和回溯过程中学习,使 GPT-4o 在经过 R-MCTS 树的探索式学习后,即使不借助搜索算法增强,也能展现出计算扩展的特性,显著提升了智能体在训练阶段的性能。

未来展望:机遇与挑战并存

AI 智能体的发展前景广阔,但也面临诸多挑战。在技术层面,尽管取得了不少进展,但仍需进一步提高智能体的自主性、泛化能力和学习效率。例如,减少对树搜索的依赖,探索强化学习等其他方法,以优化智能体的决策过程;利用模型预测控制(MPC)方法,降低与环境交互的成本,提高智能体在复杂环境中的适应性。在实际应用中,AI 智能体要实现更广泛的应用,需要解决与现有系统的集成问题,确保其能与不同的软件和硬件平台兼容。同时,还需关注数据隐私和安全问题,保障用户信息不被泄露和滥用。

Arklex 作为一个创新的组织框架,为 AI 智能体的发展提供了新的思路。它支持混合控制,使智能体能够根据用户需求和构建者目标灵活应对各种任务;通过任务组合,将复杂的现实任务拆解为可复用的模块,提高执行效率和扩展性;强调人类干预,确保关键决策的准确性和用户偏好的优先性;还支持持续学习,让智能体在不断交互中进化,保持与动态环境的相关性和有效性。与其他框架相比,Arklex 在开源性、混合控制、任务组合、人类干预和持续学习等方面具有独特优势,为 AI 智能体的发展开辟了新的方向

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被判无期的犯人,每天在监狱里如何生活?真实日常远比想象难熬

被判无期的犯人,每天在监狱里如何生活?真实日常远比想象难熬

芳姐侃社会
2026-05-31 20:40:00
奚梦瑶大婚晚宴现场曝光,穿89年生日古董礼服,何猷君增高鞋出圈

奚梦瑶大婚晚宴现场曝光,穿89年生日古董礼服,何猷君增高鞋出圈

烟浔渺渺
2026-06-03 01:26:14
苏州大学王健法学院薛艳华副教授不幸去世,年仅36岁

苏州大学王健法学院薛艳华副教授不幸去世,年仅36岁

三湘都市报
2026-06-03 13:19:08
“爸妈,我开辅助驾驶,你们放心”:一家三口全死了,智驾1分钟

“爸妈,我开辅助驾驶,你们放心”:一家三口全死了,智驾1分钟

江山挥笔
2026-06-02 18:47:02
好消息!下个月起,单位不能随便辞退老员工了!

好消息!下个月起,单位不能随便辞退老员工了!

岁月有情1314
2026-06-03 01:36:24
苏州大学薛艳华去世,年仅37岁,毕业于西南政法大学,履历很优秀

苏州大学薛艳华去世,年仅37岁,毕业于西南政法大学,履历很优秀

180视角
2026-06-03 08:57:37
山西沁源县委书记赵永进被查,此前当地煤矿爆炸致82人死亡

山西沁源县委书记赵永进被查,此前当地煤矿爆炸致82人死亡

知知贵阳
2026-06-02 22:06:03
94版《三国演义》司马懿饰演者魏宗万去世,享年89岁

94版《三国演义》司马懿饰演者魏宗万去世,享年89岁

新京报
2026-06-02 20:07:01
美防长在香格里拉对话会罕见未提台湾,国台办回应

美防长在香格里拉对话会罕见未提台湾,国台办回应

界面新闻
2026-06-03 11:01:29
美军在波斯湾袭击一艘油轮

美军在波斯湾袭击一艘油轮

新华社
2026-06-03 06:09:03
25岁女生斥巨资县城开全女酒吧,还和网友对赌多久倒闭

25岁女生斥巨资县城开全女酒吧,还和网友对赌多久倒闭

映射生活的身影
2026-06-03 08:35:49
机器人“搭子”来了!全球首款全尺寸超仿生人形机器人开始预售

机器人“搭子”来了!全球首款全尺寸超仿生人形机器人开始预售

深圳晚报
2026-06-03 08:01:52
24小时已过,普京政府准时断供,航油不卖中国,欧盟启动应急方案

24小时已过,普京政府准时断供,航油不卖中国,欧盟启动应急方案

影孖看世界
2026-06-02 23:07:47
三年套现15亿,卖掉摩拜单车的创始人胡玮炜,竟然活成了这样!

三年套现15亿,卖掉摩拜单车的创始人胡玮炜,竟然活成了这样!

秋别离
2026-06-03 07:55:11
一场迁葬,让波兰盯住泽连斯基不放……

一场迁葬,让波兰盯住泽连斯基不放……

新民周刊
2026-06-03 09:07:05
中国船舶(香港)航运租赁有限公司原董事长杨力接受审查调查

中国船舶(香港)航运租赁有限公司原董事长杨力接受审查调查

界面新闻
2026-06-03 11:34:00
把我们当冤大头了?中国无偿援助后,菲律宾一句话彻底惹怒外交部

把我们当冤大头了?中国无偿援助后,菲律宾一句话彻底惹怒外交部

青青子衿
2026-06-02 22:06:17
收割机纷纷驶离襄阳,短短十天大转变,多地跨区麦客为何转身就走

收割机纷纷驶离襄阳,短短十天大转变,多地跨区麦客为何转身就走

奇思妙想草叶君
2026-06-02 22:41:36
告诉爸妈别舍不得开空调!研究发现:温度适当调低,或能产生抑癌效果!

告诉爸妈别舍不得开空调!研究发现:温度适当调低,或能产生抑癌效果!

华医网
2026-06-03 05:41:13
刷屏!北京大学饶毅教授直言:中国学术不端比例世界空前

刷屏!北京大学饶毅教授直言:中国学术不端比例世界空前

TOP大学来了
2026-06-02 19:24:41
2026-06-03 14:11:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4787文章数 37472关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

瑞虎8 PLUS/PRO非凡冠军上市 限时10.19万元起售

态度原创

艺术
旅游
亲子
手机
公开课

艺术要闻

二十年前割麦的场景

旅游要闻

赶紧来打卡!重庆新发布5条生态文化精品线路

亲子要闻

孩子长高选什么赖氨酸好?2026推荐度高的氨基丁品牌测评,科学激活发育潜能

手机要闻

星星海梦幻外观+4K原生实况!vivo S60手机全面评测:一台懂年轻人日常需求的轻旗舰

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版