哥伦比亚大学：超越Chatgpt的AI agent综述，关于AI智能体的演进、关键技术与未来发展|算法|知识库|大模型|人工智能

哥伦比亚大学：超越Chatgpt的AI agent综述，关于AI智能体的演进、关键技术与未来发展

分享至

“欧米伽未来研究所”关注科技未来发展趋势，研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。（）

来源：欧米伽未来研究所

本报告由哥伦比亚大学周瑜（Zhou (Jo) Yu）及Arklex AI团队撰写，系统探讨了AI智能体（AI Agents）的演进、关键技术与未来发展方向。

在人工智能飞速发展的当下，AI 智能体正逐渐成为备受瞩目的焦点。从传奇人物比尔・盖茨到知名学者吴恩达、山姆・奥特曼，他们都对 AI 智能体的潜力寄予厚望，认为其将掀起计算领域继图形用户界面之后的又一场重大革命，引领 AI 取得巨大进步。那么，AI 智能体究竟是什么？它又有着怎样的神奇之处呢？

AI 智能体：智能交互新范式

AI 智能体是一种能够感知环境、进行思考和推理、做出决策并执行相应行动的人工智能系统。它就像是拥有 “智慧大脑” 的数字精灵，可以接收文本、图像、音频等多种模态的输入信息，如同人类通过各种感官感知世界一样。接着，借助大语言模型（LLM）的强大能力，智能体能够进行思维链推理，规划出行动步骤，这一过程如同人类在面对问题时思考解决方案。而且，智能体还具备反思能力，能够根据行动的结果进行元推理，不断优化自己的行为。

从应用层面来看，AI 智能体的发展可划分为多个阶段。最初是 “Just Wanna Chat” 阶段，智能体仅能简单地基于自身知识回应人类提示，如同一个知识储备有限的聊天伙伴。随着发展，进入 “Your Work Assistant” 阶段，它演变成以 LLM 为核心的软件系统，能辅助完成现实世界的任务，例如帮助人们处理工作中的文档撰写、数据整理等事务。再进一步，“Agent-as-a-Service” 阶段的智能体成为以服务为中心的系统，能自动化执行预定义的工作流程，大大提高工作效率。更高级的 “Autonomous Agents” 阶段，智能体具备高度自主性，在日常任务中几乎无需人类监督，如同一个可靠的工作伙伴。而最理想的 “Human, hold my beer” 阶段，智能体类似达到 L5 级自动驾驶水平的系统，实现真正的自主决策和行动，在复杂环境中灵活应对各种任务。

模型自我提升：解锁智能新高度

在 AI 智能体的发展进程中，模型自我提升至关重要。以往研究发现，通过提示进行自我提升的方法对小型语言模型（LM）效果不佳，小型 LM 存在无法通过提示实现自我提升，也难以从 LLM 的示范中学习 “自我提升” 能力等问题。

为解决这些难题，研究人员提出了创新方法。他们把 “自我提升” 视为一个可学习的任务，将 LLMs 或 Python 脚本当作教师模型。具体操作中，先让小型 LM 尝试解决问题，教师模型根据尝试结果给出反馈并修改，之后把这种互动经验重新用于训练小型 LM。这一过程就像是学生在老师的指导下不断改进自己的解题方法。通过这种方式生成 “自我提升” 数据，再利用这些数据训练小型 LM，显著提升了模型的性能。

在多步算术、单词排序、日期理解和逻辑演绎等复杂任务测试中，采用这种方法训练的模型表现出色。比如在多步算术任务上，经过多次迭代训练的模型，准确率大幅提高。这表明让模型在没有人类监督的情况下提升性能是可行的，不过目前该方法也存在一定局限，比如需要强大的编辑 LLM 进行监督。

树搜索策略：增强模型决策力

许多对话任务本质上是决策过程，为提升模型在这些任务中的决策能力，研究人员引入了树搜索策略。借鉴国际象棋等游戏中的前瞻搜索思想，在对话决策过程中，模型可以通过树搜索来探索多种可能的行动方案。具体来说，就是借助 LLM 来搜索有前景的行动、模拟行动结果、评估行动质量，并更新对每个行动质量的估计。

以劝说任务为例，研究人员使用 “Prompt-Based Monte-Carlo Tree Search for Goal-oriented Dialogue Policy Planning”（GDP-Zero）方法，在劝说人们向慈善机构捐款的任务中，该方法生成的策略比基础 LLM 更具说服力，提高了对话任务的成功率。这一策略不仅使聊天机器人的捐款概率、增强捐款意愿、提出有力论据等方面表现更优，还能避免过度急切地提出捐款请求，采用更平衡的策略，融合情感和逻辑诉求，从而更好地达成劝说目标。不过，目前该策略在对话任务之外的扩展应用，以及如何将改进后的行为通过训练反馈到模型中，仍是有待解决的问题。

强化学习与探索式学习：驱动智能体进化

在与计算机交互的视觉语言模型（VLM）任务中，研究人员面临着巨大挑战，因为传统 VLM 预训练并未涉及与计算机的交互。为提升智能体在这类任务中的表现，研究人员提出了两种关键方法：基于对比自反思的蒙特卡洛树搜索（R-MCTS）和探索式学习。

R-MCTS 在执行任务时，通过树搜索寻找最优行动轨迹，任务完成后进行对比自反思，分析行动的优劣，从而改进未来的执行效果。在 VisualWebArena 和 OSWorld 等基准测试中，R-MCTS 表现卓越，超越了其他搜索算法，在 VisualWebArena 上达到了新的最优成绩，在 OSWorld 上也极具竞争力。探索式学习则通过对树遍历进行训练，让智能体在探索、评估和回溯过程中学习，使 GPT-4o 在经过 R-MCTS 树的探索式学习后，即使不借助搜索算法增强，也能展现出计算扩展的特性，显著提升了智能体在训练阶段的性能。

未来展望：机遇与挑战并存

AI 智能体的发展前景广阔，但也面临诸多挑战。在技术层面，尽管取得了不少进展，但仍需进一步提高智能体的自主性、泛化能力和学习效率。例如，减少对树搜索的依赖，探索强化学习等其他方法，以优化智能体的决策过程；利用模型预测控制（MPC）方法，降低与环境交互的成本，提高智能体在复杂环境中的适应性。在实际应用中，AI 智能体要实现更广泛的应用，需要解决与现有系统的集成问题，确保其能与不同的软件和硬件平台兼容。同时，还需关注数据隐私和安全问题，保障用户信息不被泄露和滥用。

Arklex 作为一个创新的组织框架，为 AI 智能体的发展提供了新的思路。它支持混合控制，使智能体能够根据用户需求和构建者目标灵活应对各种任务；通过任务组合，将复杂的现实任务拆解为可复用的模块，提高执行效率和扩展性；强调人类干预，确保关键决策的准确性和用户偏好的优先性；还支持持续学习，让智能体在不断交互中进化，保持与动态环境的相关性和有效性。与其他框架相比，Arklex 在开源性、混合控制、任务组合、人类干预和持续学习等方面具有独特优势，为 AI 智能体的发展开辟了新的方向

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.