AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
1. 导言
你是否想过,手机能像电影钢铁侠中的智能管家贾维斯那般,一句话就能顺畅自如地完成各种复杂任务。
最近国内外的手机厂商和 AI 公司纷纷发布了手机 AI 智能体相关产品,让曾经的幻想逐渐有了可行性。
vivo 作为行业领跑者,在十月的开发者大会上推出了其手机智能体产品 “PhoneGPT",能帮用户实现一句话点咖啡、订外卖、甚至能够一句话找到最近的私房菜馆并通过 AI 实现电话预定包厢,被网友们称作 “i 人救星”。
图 1 vivo PhoneGPT订座(蓝心小V对话或小V主界面下滑探索-智能体广场体验)
与此同时,各大厂家似乎提前约好一样,都瞄准了一句话订咖啡的场景,颇有当年乔布斯使用初代 iPhone 订星巴克的即视感。更有坊间戏称,今年秋天第一杯咖啡是手机智能体帮你点的。
图 2 vivo PhoneGPT订咖啡(蓝心小V对话或小V主界面下滑探索-智能体广场体验)
尽管行业发展迅速,最近关于手机 AI 智能体的论文井喷,相关技术路线迭代发展迅速,但这一领域仍缺少系统性的综述。此次 vivo AI Lab 联合香港中文大学 MMLab 等团队发布了 “大模型驱动的手机 AI 智能体” 综述论文,该论文长达 48 页,覆盖 200 余篇文献,对基于大模型的手机自动操作智能体相关技术展开了全面且深入的研究,希望给学界和产业界作为参考,共同推进行业发展。
- 论文标题:LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects
- 论文地址:https://www.preprints.org/manuscript/202501.0413/v1
1.1 研究背景
- 手机 GUI 自动化旨在通过编程模拟人类与手机界面的交互,以完成复杂任务,传统方法包括自动化测试、快捷指令和机器人流程自动化(RPA),但存在通用性、灵活性、维护成本、意图理解和屏幕感知等方面的挑战。
- 大语言模型(LLM)的出现为手机自动化带来了新的范式,基于 LLM 的手机 GUI 智能体能够理解自然语言指令,感知界面并执行任务,有望实现更智能、自适应的自动化操作。
1.2 研究目的
- 系统总结 LLM 驱动的手机 GUI 智能体的研究成果,包括框架、模型、数据集和评估方法。
- 分析 LLM 在手机自动化中的应用现状,探讨其优势和面临的挑战。
- 指出未来研究的方向,为相关领域的研究人员和从业者提供参考。
1.3 主要贡献
图 3 大模型驱动的手机 GUI 智能体文献分类
- 对 LLM 驱动的手机 GUI 智能体进行全面系统的综述,涵盖发展轨迹、核心技术和应用场景。
- 提出多视角的方法论框架,包括框架设计、模型选择与训练、数据集与评估指标。
- 深入分析 LLM 赋能手机自动化的原因,探讨其在自然语言理解、推理和决策等方面的优势。
- 介绍和评估最新进展、数据集和基准,为研究提供资源支持。
- 识别关键挑战并提出未来研究的新视角,如数据集多样性、设备端部署效率和安全问题。
2. 手机自动化的发展历程
2.1 LLM 时代之前的手机自动化
- 自动化测试:为解决手机应用复杂度增加带来的测试难题,经历了从随机测试到基于模型的测试、基于学习的测试,再到强化学习测试的发展,但仍面临测试覆盖范围、效率、成本和模型泛化能力等挑战。
- 快捷指令:如 Tasker 和 iOS Shortcuts,通过预定义规则或触发条件实现任务自动化,但范围和灵活性有限。
- 机器人流程自动化(RPA):在手机上模拟人类执行重复性任务,但在处理动态界面和脚本更新方面存在困难。
2.2 传统方法的挑战
- 通用性有限:传统方法针对特定应用和界面,难以适应不同应用和动态环境,缺乏灵活性和上下文适应能力。
- 维护成本高:编写和维护自动化脚本需要专业知识,且随着应用更新,脚本需频繁修改,耗时费力,入门门槛高限制了用户使用。
- 意图理解能力差:基于规则和脚本的系统只能执行预定义任务,难以理解复杂自然语言指令,无法满足用户多样化需求。
- 屏幕 GUI 感知能力弱:传统方法难以准确识别和交互不同应用中的各种 GUI 元素,对动态内容和复杂界面的处理能力有限。
2.3 LLM 推动手机自动化
图 4 大模型驱动的手机 GUI 智能体发展里程碑
- 发展历程与里程碑:LLM 在手机自动化中的应用不断演进,通过自然语言理解、多模态感知和推理决策能力的提升,逐步实现更复杂任务的自动化。
- LLM 解决传统挑战的方式
- 上下文语义理解:从大量文本语料库学习,理解复杂语言结构和领域知识,准确解析多步骤命令。
- 屏幕 GUI 多模态感知:利用多模态感知能力,统一文本和视觉感知信息,实现对屏幕元素的准确定位和交互。
- 推理和决策制定:基于语言、视觉上下文和历史交互进行复杂推理、多步骤规划和上下文感知适应,提高任务执行成功率。
2.4 新兴商业应用
- Apple Intelligence:2024 年 6 月推出,集成 AI 能力到 iOS、iPadOS 和 macOS,通过智能总结、优先级通知和上下文感知回复增强通信、生产力和专注功能,保障用户隐私和安全。
- vivo PhoneGPT:2024 年 10 月推出,OriginOS 5 操作系统中的个人 AI 助手,具备自主拆解需求、主动规划路径、实时环境识别和动态反馈决策的能力,能帮用户实现一句话点咖啡、订外卖、甚至能够一句话找到最近的私房菜馆并通过 AI 实现电话预定包厢等任务。
- Honor YOYO Agent:2024 年 10 月发布,适应用户习惯和复杂指令,通过语音或文本命令自动化多步骤任务,如购物比价、自动填表、定制饮品和会议静音,提升用户体验。
- Anthropic Claude Computer Use:2024 年 10 月推出 Claude 3.5 Sonnet 模型的 Computer Use 功能,使 AI 智能体能像人类一样操作计算机,观察屏幕、移动光标、点击按钮和输入文本,改变人机交互范式。
- Zhipu.AI AutoGLM:2024 年 10 月推出,通过简单命令模拟人类操作智能手机,如点赞评论、购物、订票和点餐,能导航界面、解读视觉线索并执行任务,展示 LLM 驱动的手机自动化在商业应用中的潜力。
3. 手机 GUI 智能体框架
3.1 基本框架
图 5 大模型驱动的手机 GUI 智能体基础框架
- 感知模块
- UI 信息:包括 UI 树(如 DroidBot - GPT 将其转换为自然语言句子)、截图(如 AutoUI 依赖截图进行 GUI 控制)、Set - of - Marks(用于标注截图,如 MM - Navigator)和 Icon & OCR 增强(如 Mobile - Agent - v2 集成 OCR 和图标数据)。
- 手机状态:如键盘状态和位置数据,用于上下文感知操作。
- 大脑模块
- 存储:包括记忆(如记录历史屏幕任务相关内容)和知识(来自预训练知识、领域特定训练和知识注入)。
- 决策制定:包括规划(如 Mobile - Agent - v2 的规划智能体生成任务进度)、推理(可以利用 Chain - of - thought 增强推理能力)和反思(如 Mobile - Agent - v2 的反思智能体评估决策并调整)。
- 行动模块:通过执行触摸交互、手势操作、输入文本、系统操作和媒体控制等类型的动作,实现与手机 UI 和系统功能的交互,确保决策转化为设备上的实际操作。
3.2 多智能体框架
图 6 多智能体框架分类
- 角色协调多智能体框架(Role-Coordinated Multi-Agent Framework):如 MMAC - Copilot 中多个具有不同功能的智能体协作,包括规划、决策、记忆管理、反思和工具调用等,通过预定义工作流程共同完成任务。
- 基于场景的任务执行框架(Scenario-Based Task Execution Framework):如 MobileExperts 根据特定任务场景动态分配任务给专家智能体,每个智能体可以具有针对特定场景(如购物、编码、导航)的能力,提高任务成功率和效率。
3.3 计划 - 然后 - 行动框架(Plan-Then-Act Framework)
- 如 SeeAct、UGround、LiMAC 和 ClickAgent 等工作展示了该框架的有效性,通过先生成动作描述,再根据动作描述定位到要操作的控件位置,提高了任务执行的清晰度、可靠性和适应性,允许独立改进规划和 UI 定位模块。
4. 用于手机自动化的大语言模型
图 7 模型分类
4.1 提示工程(Prompt Engineering)
图 8 提示词设计
- 纯文本提示词(Text-Based Prompt):主要架构为单文本模态 LLM,通过解释 UI 树信息进行决策,如 DroidBot - GPT、Enabling Conversational 等,在不同应用中有一定进展,但存在对屏幕的全局信息理解利用不足等问题。
- 多模态提示词(Multimodal Prompt):多模态大语言模型(MLLM)集成视觉和文本信息,通过截图和补充 UI 信息进行决策,包括基于 SoM 输出索引方法(如 MM - Navigator、AppAgent)和直接坐标输出方法(如 VisionTasker、Mobile - Agent 系列),提高了准确性和鲁棒性,但在 UI 定位准确性方面仍面临挑战。
4.2 基于训练的方法(Training-Based Methods)
- GUI 任务专用模型架构(Task Specific Model Architectures)
- 通用目的:如 Auto - GUI、CogAgent、ScreenAI、CoCo - Agent 和 MobileFlow 等,旨在增强直接 GUI 交互、高分辨率视觉识别、全面环境感知和条件行动预测能力,以应对不同应用和界面的任务。
图 9 不同的 UI 理解任务
- 特定领域:专注于屏幕理解任务,包括 UI 定位(如 LVG、UI - Hawk)、UI 引用(如 Ferret - UI、UI - Hawk)和屏幕问答(如 ScreenAI、WebVLN、UI - Hawk),通过特定技术提升智能体在复杂用户界面中的交互能力。
- 监督微调(Supervised Fine-Tuning)
- 通用目的:通过在特定任务数据集上微调,增强模型在 GUI 定位、OCR、跨应用导航和效率等方面的能力,如 SeeClick、GUICourse、GUI Odyssey 和 TinyClick 等工作。
- 特定领域:应用于特定任务,如 ReALM 解决参考分辨率问题,IconDesc 用于生成 UI 图标替代文本,提高了模型在特定领域的性能。
- 强化学习(Reinforcement Learning)
- 手机智能体:如 DigiRL、DistRL 和 AutoGLM,通过强化学习训练智能体适应动态手机环境,提高决策能力和成功率,AutoGLM 还实现了跨平台应用。
- 网页智能体:ETO、Agent Q 和 AutoWebGLM 利用强化学习使智能体适应复杂网页环境,通过学习交互和改进决策,提高在网页导航和操作任务中的性能。
- Windows 智能体:ScreenAgent 通过强化学习使智能体在 Windows 环境中与真实计算机屏幕交互,完成多步骤任务,展示了在桌面 GUI 自动化中的潜力。
5. 数据集和基准
5.1 相关数据集
表1 数据集
- 早期数据集:如 PixelHelp 将自然语言指令映射到 UI 动作,UIBert 通过预训练提升 UI 理解,Meta - GUI 收集对话与 GUI 操作痕迹,UGIF 解决多语言 UI 指令跟随问题,MoTIF 引入任务可行性和不确定性。
- 大规模数据集:Android In The Wild(AITW)和 Android In The Zoo(AITZ)提供大量设备交互数据,GUI Odyssey 用于跨应用导航训练和评估,AndroidControl 研究数据规模对智能体性能的影响,AMEX 提供详细注释增强智能体对 UI 元素的理解。
5.2 基准
表 2 Benchmarks
- 评估方法(Evaluation Pipelines):MobileEnv 提供通用训练和评估平台,AndroidArena 评估 LLM 智能体在复杂 Android 环境中的性能,LlamaTouch 实现移动 UI 任务的设备端执行和评估,B - MoCA 评估不同配置下的移动设备控制智能体,AndroidWorld 提供动态可参数化任务环境,MobileAgentBench 为移动 LLM 智能体提供高效基准,AUITestAgent 实现自动 GUI 测试,AndroidLab 提供系统框架和基准。
- 评估指标(Evaluation Metrics)
- 任务完成指标:如任务完成率、子目标成功率和端到端任务完成率,评估智能体完成任务的有效性。
- 行动执行质量指标:包括行动准确性、正确步骤、正确轨迹、操作逻辑和推理准确性,衡量智能体行动的精确性和逻辑性。
- 资源利用和效率指标:如资源消耗、步骤效率和反向冗余比,评估智能体资源利用效率。
- 任务理解和推理指标:如 Oracle 准确性、点准确性、推理准确性和关键信息挖掘能力,考察智能体的理解和推理能力。
- 格式和合规性指标:验证智能体输出是否符合格式约束。
- 完成意识和反思指标:评估智能体对任务边界的识别和学习能力。
- 评估准确性和可靠性指标:确保评估过程的一致性和可靠性。
- 奖励和整体性能指标:如任务奖励和平均奖励,综合评估智能体性能。
6. 挑战与未来方向
6.1 数据集开发与微调可扩展性
- 现有数据集缺乏多样性,未来需开发大规模、多模态且涵盖广泛应用、用户行为、语言和设备类型的数据集。
- 解决微调在域外性能方面的挑战,探索混合训练方法、无监督学习、迁移学习和辅助任务,以减少对大规模数据的依赖。
6.2 轻量级和高效的设备端部署
- 克服移动设备在计算和内存方面的限制,采用模型剪枝、量化和高效 transformer 架构等方法,如 Octopus v2 和 Lightweight Neural App Control 的创新。
- 利用专门硬件加速器和边缘计算解决方案,减少对云的依赖,增强隐私保护并提高响应速度。
6.3 用户中心适应:交互与个性化
- 提高智能体对用户意图的理解能力,减少手动干预,支持语音命令、手势和持续学习用户反馈。
- 实现智能体的个性化适应,通过集成多种学习技术,使其快速适应新任务和用户特定上下文,无需大量重新训练。
6.4 模型定位、推理等能力提升
- 改进语言指令到 UI 元素的精确映射,集成先进视觉模型、大规模注释和有效融合技术,提升多模态定位能力。
- 增强智能体在复杂场景中的推理、长程规划和适应性,开发新架构、内存机制和推理算法,超越当前 LLM 能力。
6.5 标准化评估基准
- 建立统一的基准,覆盖多种任务、应用类型和交互模态,提供标准化指标、场景和评估协议,促进公平比较和全面评估。
6.6 确保可靠性和安全性
- 开发强大的安全协议、错误处理技术和隐私保护方法,防范对抗攻击、数据泄露和意外行为,保护用户信息和信任。
- 实施持续监测和验证过程,实时检测和缓解风险,确保智能体行为可预测、尊重隐私并在各种条件下保持稳定性能。
7. 总结
- 综述了 LLM 驱动的手机自动化技术发展,包括多种框架(单智能体、多智能体、计划 - 然后 - 行动)、模型方法(提示工程、基于训练)和数据集 / 基准。
- 分析了 LLM 在提升手机自动化效率、智能性和适应性方面的作用,以及面临的挑战和未来发展方向。
- 强调了标准化基准和评估指标对推动领域发展的重要性,有助于公平比较不同模型和方法。
展望未来,随着模型架构改进、设备端推理优化和多模态数据集成,基于大模型的手机 GUI 智能体有望在复杂任务中实现更高自主性,融合更多 AI 范式,为用户提供无缝、个性化和安全的体验。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.