“欧米伽未来研究所”关注科技未来发展趋势,研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。()
来源:欧米伽未来研究所
本报告由哥伦比亚大学周瑜(Zhou (Jo) Yu)及Arklex AI团队撰写,系统探讨了AI智能体(AI Agents)的演进、关键技术与未来发展方向。
在人工智能飞速发展的当下,AI 智能体正逐渐成为备受瞩目的焦点。从传奇人物比尔・盖茨到知名学者吴恩达、山姆・奥特曼,他们都对 AI 智能体的潜力寄予厚望,认为其将掀起计算领域继图形用户界面之后的又一场重大革命,引领 AI 取得巨大进步。那么,AI 智能体究竟是什么?它又有着怎样的神奇之处呢?
AI 智能体:智能交互新范式
AI 智能体是一种能够感知环境、进行思考和推理、做出决策并执行相应行动的人工智能系统。它就像是拥有 “智慧大脑” 的数字精灵,可以接收文本、图像、音频等多种模态的输入信息,如同人类通过各种感官感知世界一样。接着,借助大语言模型(LLM)的强大能力,智能体能够进行思维链推理,规划出行动步骤,这一过程如同人类在面对问题时思考解决方案。而且,智能体还具备反思能力,能够根据行动的结果进行元推理,不断优化自己的行为。
从应用层面来看,AI 智能体的发展可划分为多个阶段。最初是 “Just Wanna Chat” 阶段,智能体仅能简单地基于自身知识回应人类提示,如同一个知识储备有限的聊天伙伴。随着发展,进入 “Your Work Assistant” 阶段,它演变成以 LLM 为核心的软件系统,能辅助完成现实世界的任务,例如帮助人们处理工作中的文档撰写、数据整理等事务。再进一步,“Agent-as-a-Service” 阶段的智能体成为以服务为中心的系统,能自动化执行预定义的工作流程,大大提高工作效率。更高级的 “Autonomous Agents” 阶段,智能体具备高度自主性,在日常任务中几乎无需人类监督,如同一个可靠的工作伙伴。而最理想的 “Human, hold my beer” 阶段,智能体类似达到 L5 级自动驾驶水平的系统,实现真正的自主决策和行动,在复杂环境中灵活应对各种任务。
模型自我提升:解锁智能新高度
在 AI 智能体的发展进程中,模型自我提升至关重要。以往研究发现,通过提示进行自我提升的方法对小型语言模型(LM)效果不佳,小型 LM 存在无法通过提示实现自我提升,也难以从 LLM 的示范中学习 “自我提升” 能力等问题。
为解决这些难题,研究人员提出了创新方法。他们把 “自我提升” 视为一个可学习的任务,将 LLMs 或 Python 脚本当作教师模型。具体操作中,先让小型 LM 尝试解决问题,教师模型根据尝试结果给出反馈并修改,之后把这种互动经验重新用于训练小型 LM。这一过程就像是学生在老师的指导下不断改进自己的解题方法。通过这种方式生成 “自我提升” 数据,再利用这些数据训练小型 LM,显著提升了模型的性能。
在多步算术、单词排序、日期理解和逻辑演绎等复杂任务测试中,采用这种方法训练的模型表现出色。比如在多步算术任务上,经过多次迭代训练的模型,准确率大幅提高。这表明让模型在没有人类监督的情况下提升性能是可行的,不过目前该方法也存在一定局限,比如需要强大的编辑 LLM 进行监督。
树搜索策略:增强模型决策力
许多对话任务本质上是决策过程,为提升模型在这些任务中的决策能力,研究人员引入了树搜索策略。借鉴国际象棋等游戏中的前瞻搜索思想,在对话决策过程中,模型可以通过树搜索来探索多种可能的行动方案。具体来说,就是借助 LLM 来搜索有前景的行动、模拟行动结果、评估行动质量,并更新对每个行动质量的估计。
以劝说任务为例,研究人员使用 “Prompt-Based Monte-Carlo Tree Search for Goal-oriented Dialogue Policy Planning”(GDP-Zero)方法,在劝说人们向慈善机构捐款的任务中,该方法生成的策略比基础 LLM 更具说服力,提高了对话任务的成功率。这一策略不仅使聊天机器人的捐款概率、增强捐款意愿、提出有力论据等方面表现更优,还能避免过度急切地提出捐款请求,采用更平衡的策略,融合情感和逻辑诉求,从而更好地达成劝说目标。不过,目前该策略在对话任务之外的扩展应用,以及如何将改进后的行为通过训练反馈到模型中,仍是有待解决的问题。
强化学习与探索式学习:驱动智能体进化
在与计算机交互的视觉语言模型(VLM)任务中,研究人员面临着巨大挑战,因为传统 VLM 预训练并未涉及与计算机的交互。为提升智能体在这类任务中的表现,研究人员提出了两种关键方法:基于对比自反思的蒙特卡洛树搜索(R-MCTS)和探索式学习。
R-MCTS 在执行任务时,通过树搜索寻找最优行动轨迹,任务完成后进行对比自反思,分析行动的优劣,从而改进未来的执行效果。在 VisualWebArena 和 OSWorld 等基准测试中,R-MCTS 表现卓越,超越了其他搜索算法,在 VisualWebArena 上达到了新的最优成绩,在 OSWorld 上也极具竞争力。探索式学习则通过对树遍历进行训练,让智能体在探索、评估和回溯过程中学习,使 GPT-4o 在经过 R-MCTS 树的探索式学习后,即使不借助搜索算法增强,也能展现出计算扩展的特性,显著提升了智能体在训练阶段的性能。
未来展望:机遇与挑战并存
AI 智能体的发展前景广阔,但也面临诸多挑战。在技术层面,尽管取得了不少进展,但仍需进一步提高智能体的自主性、泛化能力和学习效率。例如,减少对树搜索的依赖,探索强化学习等其他方法,以优化智能体的决策过程;利用模型预测控制(MPC)方法,降低与环境交互的成本,提高智能体在复杂环境中的适应性。在实际应用中,AI 智能体要实现更广泛的应用,需要解决与现有系统的集成问题,确保其能与不同的软件和硬件平台兼容。同时,还需关注数据隐私和安全问题,保障用户信息不被泄露和滥用。
Arklex 作为一个创新的组织框架,为 AI 智能体的发展提供了新的思路。它支持混合控制,使智能体能够根据用户需求和构建者目标灵活应对各种任务;通过任务组合,将复杂的现实任务拆解为可复用的模块,提高执行效率和扩展性;强调人类干预,确保关键决策的准确性和用户偏好的优先性;还支持持续学习,让智能体在不断交互中进化,保持与动态环境的相关性和有效性。与其他框架相比,Arklex 在开源性、混合控制、任务组合、人类干预和持续学习等方面具有独特优势,为 AI 智能体的发展开辟了新的方向
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。
截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.