纯视觉方案，精准操控电脑和手机！港大Aria-UI登顶，超越Claude 3.5|上下文|gui|智能体|命令提示符

分享至

新智元报道

编辑：LRST

【新智元导读】Aria-UI通过纯视觉理解，实现了GUI指令的精准定位，无需依赖后台数据，简化了部署流程；在AndroidWorld和OSWorld等权威基准测试中表现出色，分别获得第一名和第三名，展示了强大的跨平台自动化能力。

在当今数字时代，智能助手已成为处理跨平台任务的不可或缺工具。

然而，如何将用户的自然语言指令精准映射（grounding）到界面元素一直是该领域的核心挑战。

传统解决方案主要依赖调用无障碍API、解析HTML源码或提取后台数据，这些方法普遍存在效率低下、信息不完整、兼容性差等显著痛点，严重制约了自动化技术的广泛应用。

港大联合Rhymes AI推出的Aria-UI，通过开创性的「纯视觉理解」方案彻底改变了这一现状，无需任何后台数据支持，仅通过直接观察用户界面就能完成自然语言理解、界面元素定位、语义对齐和任务执行等全流程操作。这种新的设计不仅简化了部署流程，更为跨平台自动化开辟了全新范式。

项目主页：https://ariaui.github.io

Hugging Face在线demo：https://huggingface.co/spaces/Aria-UI/Aria-UI

GitHub仓库：https://github.com/AriaUI/Aria-UI

论文链接：https://arxiv.org/abs/2412.1702

Aria-UI是一款专门面向GUI智能交互的创新型大规模多模态模型（LMM），颠覆性地实现了「看到即会操作」的自然交互范式 - 就像人类用户一样，AI只需「观察」界面，即可理解并自主完成复杂的操作流程，从网页浏览、文件处理到系统设置等任务都能轻松应对。

在评估AI自动化操作能力的权威基准测试中，Aria-UI配合GPT-4o展现出卓越表现：AndroidWorld榜单排名第一，OSWorld榜单排名第三！

这一成绩不仅超越了业界领先的Claude 3.5 Sonnet computer-use接口，更展示了其在模拟人类操作电脑方面的强大能力。

Aria-UI采用创新的MoE (Mixture of Experts)架构，通过智能动态激活机制，将模型参数需求压缩至仅3.9B，同时保持较好的性能。这一突破性的轻量级设计带来多重优势：

技术亮点：

极致压缩：仅激活3.9B参数，大幅降低计算资源需求
高效推理：优化的MoE架构确保快速响应和稳定性能
广泛适配：支持在资源受限场景下的灵活部署
开放生态：全面开源模型权重与训练数据
部署便利：提供即用型vLLM推理脚本、支持主流huggingface transformers框架、完整的部署文档与示例

这种开放共享的策略，配合便捷的部署方案，让Aria-UI真正做到「开箱即用」。

Aria-UI的突破性创新

智能指令适配引擎：Aria-UI设计了数据生成pipeline，通过自动合成海量高质量训练样本，为模型注入强大的指令理解能力。这套智能指令适配引擎使模型获得了卓越的泛化性能，能从容应对各类复杂任务场景，展现出非凡的环境适应能力，为实现真正的通用型AI助手奠定了坚实基础。

动态上下文感知：为实现高精度的任务执行，Aria-UI创新性地融合了多模态上下文理解机制。通过整合文本记录和图文操作历史，模型获得了强大的场景理解能力，能准确把握动态变化的操作环境，将复杂指令精准转化为具体行动。

全面性能测评：Aria-UI在严格的性能评测中展现出令人瞩目的技术优势，成功刷新了多个领域基准的记录。在纯视觉人机交互基准测试中，其表现远超现有最佳视觉模型；在与需要调用AXTree等额外信息的传统方案对比中，Aria-UI仅依靠视觉理解就取得了显著的性能提升。实验测评不仅验证了纯视觉方法的可行性，更展示了其在界面自动化领域(GUI Grounding)的应用潜力。

随着图形用户界面（GUI）在各大平台的深度普及，它已然成为数字世界的核心交互方式。从日常生活场景到专业工作领域，GUI智能体正在重塑人机交互的方式，为任务自动化开辟新天地。如图2所示，一个完整的GUI智能体运作可分为两大核心阶段：决策规划（Planning）和视觉定位（Grounding）

在决策规划阶段，智能体通过分析当前界面状态，制定执行任务的具体策略；而在视觉定位阶段，则需要将规划好的指令精准映射到实际界面元素上，确保操作的准确执行。

尽管大规模多模态模型（LMMs）在决策规划方面取得显著进展，特别是在链式推理（CoT）和模型扩展等技术的加持下，但如何实现语言指令到GUI元素的精准定位仍然面临重大挑战。这些挑战主要体现在三个层面：

跨设备兼容性：不同设备间界面布局存在巨大差异，要求模型具备强大的适应能力
指令多样性：规划指令在形式和内容上变化多端，考验模型的理解能力
场景复杂性：任务执行过程充满动态变化，对模型的实时响应能力提出更高要求

这些挑战不仅推动着GUI智能体技术的持续创新，也为打造更智能、更实用的自动化解决方案指明了方向。

多样化指令适配：从数据到模型的全方位提升

在开发Aria-UI的过程中，研究人员深入剖析了当前GUI Grounding领域的数据困境。传统数据集普遍存在规模受限、封闭私有、平台单一等问题，尤其是缺乏对动态任务执行过程中关键上下文信息的采集。这些局限性严重制约了多模态大模型（LMM）在跨平台场景下的表现和通用性。

针对这些挑战，Aria-UI开创性地提出了一套数据驱动解决方案。通过构建高度自动化的数据生成pipeline，实现了对网页、桌面和移动端三大核心平台的全面覆盖。这套创新机制不仅显著扩充了训练数据的规模和多样性，更为模型在复杂指令适配方面的能力提升开辟了新途径。

多平台数据扩展：打造Web、PC与移动端全场景覆盖

Aria-UI 设计的数据生成pipeline包含两个关键阶段:

第一阶段：精确元素描述生成

采用顶尖多模态语言模型（如GPT-4o或Qwen2-VL-72B）进行元素描述生成。输入数据包含：元素截图、HTML文本信息、屏幕位置坐标。

为确保描述质量，研究人员优化了视觉输入方式：

• 独立截图：捕捉目标元素局部画面

• 放大视图：用红框标注目标元素在整体界面中的位置

这种方法能获取元素特征，包括视觉属性、功能特性和位置关系等。例如，一个红色的“订阅”按钮描述为：位于ChefMaria烹饪频道头部右上角的'订阅'按钮，鲜红色背景，白色文字搭配铃铛图标，下方显示2.3M订阅者

第二阶段：多样化指令生成

基于第一阶段的精确描述，利用LLM生成自然、多样的操作指令。以上述订阅按钮为例：「订阅ChefMaria的频道。」

为增强数据多样性，每个元素均生成3种不同表达的指令。通过这套精心设计的pipeline，成功构建了覆盖三大平台的海量高质量指令数据集，为模型训练提供了坚实基础。

网页数据（Web）

网页平台以其丰富的交互形式和动态特性，为构建GUI Grounding数据集提供了理想环境。基于最新的Common Crawl数据库，设计了以下精细化处理流程：

• 网页筛选：采用fastText技术进行内容质量评估，有效过滤低质量和不当网页，重点保留交互元素丰富的高价值页面；

• 元素提取：基于HTML属性进行精准识别，提取按钮、图标等高交互性元素，优先采集复杂度高且贴近实际应用场景的界面内容；

• 跨设备数据采集：运用Playwright自动化工具，同步采集1920×1080（标准分辨率）和2440×1600（高清分辨率）两种规格的界面数据，确保模型的广泛适用性。

通过这套系统化的处理流程，成功从173K个网页中提取了2M个高质量交互元素，并最终生成了 6M条标准化指令样本。这些覆盖多种分辨率和界面复杂度的数据，不仅完整展现了现代网页的特性，更为GUI任务提供了丰富而实用的训练资源。

桌面数据（Desktop）

桌面环境数据的高质量采集一直是研究中的关键难点。现有数据集普遍存在规模受限、采集成本高等问题，如OmniACT数据集仅包含7.3K条人工标注样本。

针对这一挑战，研究人员创新开发了基于大语言模型(LLM)的自动化遍历Agent，实现了桌面环境数据的高效采集：

• 智能遍历策略: Agent通过实时解析操作系统的可访问性树（A11y），采用深度优先搜索算法，系统性地探索和选择界面中的交互元素，确保采集的全面性；

• 状态追踪机制：集成轻量级记忆模块，实时记录已访问元素的状态信息，有效避免重复采集，提升采集效率；

• 多模态数据捕获：对每个交互元素进行多维度信息采集，包括高清截图、精确坐标位置以及完整的A11y属性描述，保证数据的完整性。

通过这套创新的采集系统，成功获取了50K个高质量桌面交互元素，并借助数据处理流程最终生成了 150K条丰富多样的指令样本。这一成果显著扩充了桌面环境GUI Grounding数据的规模，为相关研究提供了坚实的数据基础。

移动数据（Mobile）

移动端是GUI自动化研究的重点领域，已积累了丰富的公开数据资源。尽管目前最大的AMEX数据集包含了104K张屏幕截图和1.6M个交互元素，但其元素描述过于简单，缺乏与实际任务相匹配的自然语言指令。针对这一问题，Aria-UI 对AMEX数据进行了系统性重构，通过高质量的描述和指令重生成，在保持原有规模的同时显著提升了数据质量，为移动端任务提供了更有效的训练基础。

动态上下文感知机制

相比于静态任务，动态任务的成功执行高度依赖于对上下文信息的准确理解。Aria-UI 创新性地引入了文本-图像混合的操作历史记录，显著增强了模型的上下文感知能力。在处理多步骤任务时，模型不仅考虑当前元素的特征，还综合分析先前操作的完整记录，从而生成更精准的操作指令。这种深度上下文感知机制使 Aria-UI 在复杂任务场景中展现出优异的准确性和稳定性。

跨平台统一解决方案

通过上述创新设计，Aria-UI 不仅有效克服了现有数据集的局限性，还在多样化指令适配方面取得了突破性进展。无论是网页、桌面应用还是移动端界面，Aria-UI 都表现出卓越的性能，为跨平台GUI自动化提供了一站式解决方案。这些进展为未来更广泛的任务自动化应用奠定了坚实基础。

模型框架：高效与精准的结合

Aria-UI 基于先进的MoE多模态大模型Aria构建，充分继承和优化了其核心优势，实现了效率与精确度的最佳平衡：

深度多模态理解：Aria的原生多模态架构专门设计用于处理复杂的跨模态信息，使GUI智能体能够准确理解和响应多样化的交互场景；

高效计算架构：得益于精巧的模型设计，Aria以仅3.9B的激活参数实现了超越7B规模密集模型的推理速度，确保了实际应用中的快速响应能力。

突破分辨率限制, 精准适配复杂界面

面对显示技术从1080p向2K及更高分辨率演进的趋势，高分辨率图像处理能力已成为GUI Grounding模型的核心需求。

研究人员对Aria的基础架构进行了创新性改进：通过智能分块策略，将原本980×980的处理能力提升至 3920×2940，实现了超高分辨率支持。

为确保高分辨率场景下的精确定位，采用了基于NaViT的优化方案，通过保持原始宽高比的智能填充技术，有效降低了图像变形带来的精度损失。这些技术创新使Aria-UI能够在各种分辨率环境下保持稳定的性能表现。

训练与推理策略：构建动态环境适应能力

Aria-UI采用双阶段训练方案，系统性地建立基础能力并强化动态适应性：

基础能力构建阶段

在第一阶段，研究人员专注于培养模型的核心GUI Grounding能力。模型接收标准格式的指令输入（如「给定GUI图像，定位以下描述对应元素的像素坐标」），通过大量单步指令-坐标对的训练，学习准确输出归一化坐标值（0-1000范围内）的基础能力，为后续的动态任务处理奠定坚实基础。

动态能力增强阶段

第二阶段着重增强模型的动态任务处理能力，引入了包含纯文本历史和文本-图像混合历史的上下文感知训练。

为了维持模型的普适性并防止过度拟合，在训练集中保留了20%的单步数据，确保模型在保持动态处理能力的同时不会丢失基础定位准确度。

智能推理机制

在实际推理阶段，Aria-UI将输出统一的标准化坐标（[0, 1000]范围），并能够将历史操作记录作为上下文输入处理。这种设计使模型能够像进行对话一样处理连续的交互任务，将过往的元素定位与交互记录纳入决策考量，从而在复杂的动态环境中展现出优异的适应能力和稳定性。

凭借这套创新的技术架构，Aria-UI在多个关键领域实现了突破：精准支持从1080p到4K的超高分辨率界面、灵活适配多样化布局设计，同时在复杂动态环境中展现出较强的任务处理能力和环境适应性。

Agent任务表现

研究人员在ScreenSpot基准数据集上对Aria-UI的基础GUI Grounding能力进行了系统评估。该测试集包含六个细分场景，覆盖两类界面元素和三大主流平台（移动端、网页、桌面端）。

每个测试样本由一张GUI截图和对应的定位指令组成，其中移动端和网页场景采用2K分辨率，桌面端场景则使用540p分辨率，全面验证模型在不同应用环境下的定位准确性。

在综合性能测试中，Aria-UI展现出卓越的定位能力，在全部测试子集上取得了82.4%的最优平均准确率。特别是在文本元素定位任务中，模型表现尤为突出，超越现有方案。这些结果充分证明了Aria-UI在跨平台场景和多元素类型中具备强大的适应性与泛化能力。

移动端离线Agent测试

研究人员对Aria-UI在移动端离线动态场景中的性能进行了深入评估，重点验证其为代理任务轨迹提供精准定位坐标的能力。评估采用了三个专业测试集：AndroidControl-Low、GUI-Odyssey和AndroidControl-High。

其中，前两个测试集包含了完整的逐步操作指令（人工标注或自动生成），而AndroidControl-High则仅提供任务目标，需要借助GPT-4o作为规划器来分解和生成具体操作步骤。这种评估框架使我们能够全面检验模型在任务精度和完成率两个关键指标上的表现。

在实验中，研究人员设计并评估了Aria-UI的两个关键变体：

Aria-UI_TH（文本动作历史）：该变体在推理过程中集成了Agent的历史动作文本描述，通过上下文信息增强来优化当前元素的定位准确性。这种设计在计算效率和性能表现间实现了理想平衡。
Aria-UI_IH（文本-图像交替历史）：该变体在文本动作历史的基础上，额外引入了前序步骤的图像信息作为辅助输入。这种多模态融合策略为任务提供了更丰富的上下文感知，尤其适合需要精确视觉理解的复杂场景。

实验结果显示，两个变体都在AndroidControl和GUI-Odyssey测试集上取得了突破性进展，显著超越现有基准模型。历史信息的引入（无论是纯文本还是文本-图像结合）都有效提升了元素定位精度和任务完成质量。其中，Aria-UI_TH凭借其出色的性能与效率权衡，展现出特别优异的应用价值。

网页端离线Agent测试

研究人员采用Multimodal-Mind2Web基准对Aria-UI在网页代理任务中的性能进行了全面评估。该基准包含三个具有挑战性的测试场景：跨任务、跨网站和跨领域，旨在系统验证模型在零样本环境下的泛化能力。

实验结果令人瞩目：Aria-UI系列模型在所有测试场景中均显著领先于现有基准方案，整体平均准确率达到57.5%。

其中，融入历史信息的变体表现更为出色，Aria-UI_TH和Aria-UI_IH的准确率进一步提升至58.9%。特别值得一提的是，Aria-UI_IH在跨网站和跨领域测试中展现出卓越表现，充分证明了其在处理复杂多模态上下文方面的优势。

在线Agent评估

移动端与网页端性能

采用AndroidWorld基准测试框架，在Android模拟器环境中对移动端代理进行了严格的在线评估。评估采用系统状态检测机制，通过监测虚拟设备的实时状态来判定任务完成情况。

同时，还引入了AndroidWorld提供的MobileMiniWob++任务集，这是一个基于经典Web代理环境MiniWob++构建的专业测试集。

AndroidWorld测试：Aria-UI展现出突破性成果，其中Aria-UI_TH变体实现了44.8%的任务成功率，创造了新的性能基准。这一成绩不仅超越了现有最优方案，还优于依赖AXTree输入的非纯视觉方法（如SoM和Choice）。这充分证明了Aria-UI作为纯视觉GUI代理的卓越能力，展示了其在复杂真实场景中的稳定性和适应性。
MobileMiniWob++测试：在纯视觉输入条件下，Aria-UI的表现显著优于其他视觉方法和基于选择的方案。虽然在这个结构相对简单的测试环境中，基于GPT-4-Turbo的SoM方法取得了最佳成绩，但Aria-UI仍然在纯视觉处理领域展现出领先优势。

OSWorld评估：复杂操作系统环境测试

在最具挑战性的操作系统模拟环境OSWorld中，研究人员对Aria-UI进行了深入评估。通过将Aria-UI作为核心定位模型，并与GPT-4o协同运作，我们完成了涵盖369个实际应用场景的综合测试。

实验结果显示，Aria-UI创造了15.15%的平均任务成功率，显著领先于所有现有方案。特别值得关注的是，在多个高难度应用场景中，Aria-UI展现出卓越性能：

VLC播放器任务：30.06%
Chrome浏览器操作：23.80%
Impress演示制作：15.32%

这些证明了Aria-UI在处理复杂GUI交互时的优越能力。

综合性能总结

通过一系列严格的在线评估，Aria-UI在多个关键场景中均展现出全面的技术优势：

移动端环境：优异的定位精度
网页端应用：出色的交互能力
操作系统环境：强大的任务完成能力

这些测试结果有力地证明了Aria-UI作为纯视觉GUI代理的技术先进性，展示了其在复杂多变的实际应用环境中的卓越适应能力和操作精准度。

总结

Aria-UI通过一系列严格的在线测试，在移动端、网页端及复杂的操作系统模拟环境中均展现出显著的技术优势，全面超越现有最先进解决方案。

这些测试成果不仅验证了Aria-UI作为纯视觉GUI代理的卓越性能，更凸显了其超强的环境适应能力、精确的元素定位能力和可靠的任务完成能力。如此全方位的优异表现，有力地证实了Aria-UI在处理复杂人机交互任务时的技术成熟度和实用价值。

参考资料：

https://ariaui.github.io

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.