网易首页 > 网易号 > 正文 申请入驻

AI让手机任务自动跑起来!我国高校最新研究,简化移动设备操作

0
分享至

MOE KLINNS Lab投稿
量子位 | 公众号 QbitAI

AI解放碳基生物双手,甚至能让你的手机自己玩自己

你没听错——这其实就是移动任务自动化。

在AI飞速发展下,这逐渐成为一个新兴的热门研究领域。

移动任务自动化利用AI精准捕捉并解析人类意图,进而在移动设备(手机、平板电脑、车机终端)上高效执行多样化任务,为那些因认知局限、身体条件限制或身处特殊情境下的用户提供前所未有的便捷与支持。

  • 帮助视障人群用户完成导航、阅读或网上购物
  • 辅助老年人使用手机,跨越数字鸿沟
  • 帮助车主在驾驶过程中完成发送短信或调节车内环境
  • 替用户完成日常生活中普遍存在的重复性任务

妈妈再也不嫌重复设置多个日历事项会心烦了。

最近,来自西安交通大学智能网络与网络安全教育部重点实验室(MOE KLINNS Lab)的蔡忠闽教授、宋云鹏副教授团队(团队主要研究方向为智能人机交互、混合增强智能、电力系统智能化等),基于团队最新AI研究成果,创新性提出了基于视觉的移动设备任务自动化方案VisionTasker

这项研究不仅为普通用户提供了更智能的移动设备使用体验,也展现出了对特殊需求群体的关怀与赋能。



基于视觉的移动设备任务自动化方案

团队提出了VisionTasker,一个结合基于视觉的UI理解和LLM任务规划的两阶段框架,用于逐步实现移动任务自动化。

该方案有效消除了表示UI对视图层次结构的依赖,提高了对不同应用界面的适应性。

值得注意的是,利用VisionTasker无需大量数据训练大模型。



VisionTasker从用户以自然语言提出任务需求开始工作, Agent开始理解并执行指令。

具体实现如下:

1、用户界面理解

VisionTasker通过视觉的方法做UI理解来解析和解释用户界面。

首先Agent识别并分析用户界面上的元素及布局,如按钮、文本框、文字标签等。

然后,将这些识别到的视觉信息转换成自然语言描述,用于解释界面内容。

2、任务规划与执行

接下来,Agent利用大语言模型导航,根据用户的指令和界面描述信息做任务规划。

将用户任务拆解为可执行的步骤,如点击或滑动操作,以自动推进任务的完成。

3、持续迭代以上过程

每一步完成后,Agent都会根据最新界面和历史动作更新其对话和任务规划,确保每一步的决策都是基于当前上下文的。

这是个迭代的过程,将持续进行直到判断任务完成或达到预设的限制。

用户不仅能从交互中解放双手,还可以通过可见提示监控任务进度,并随时中断任务,保持对整个流程的控制。



首先是识别界面中的小部件和文本,检测按钮、文本框等元素及其位置。

对于没有文本标签的按钮,利用 CLIP 模型基于视觉设计来推断其可能功能。

随后,系统根据 UI 布局的视觉信息进行区块划分,将界面分割成多个具有不同功能的区块,并对每个区块生成自然语言描述。

这个过程还包括文本与小部件的匹配,确保正确理解每个元素的功能。

最终,所有这些信息被转化为自然语言描述,为大语言模型提供清晰、语义丰富的界面信息,使其能够有效地进行任务规划和自动化操作。

实验评估

实验评估部分,该项目提供了对三种UI理解的比较分析,分别是:

  • GPT-4V
  • VH(视图层级)
  • VisionTasker方法



对比显示,VisionTasker在多个维度上比其他方法有显著优势。

此外,在处理跨语言应用时也表现出了良好的泛化能力。



△ 实验1中使用到的常见UI布局

表明VisionTasker的以视觉为基础的UI理解方法在理解和解释UI方面具有明显优势,尤其是在面对多样化和复杂的用户界面时尤为明显。



△跨四个数据集的单步预测准确性

文章还进行了单步预测实验,根据当前的任务状态和用户界面,预测接下来应该执行的动作或操作。

结果显示,VisionTasker在所有数据集上的平均准确率达到了67%,比基线方法提高了15%以上。

真实世界任务:VisionTasker vs 人类

实验过程中,研究人员设计了147个真实的多步骤任务来测试VisionTasker的表现,这些任务涵盖了国内常用的42个应用程序。

与此同时,团队还设置了人类对比测试,由12名人类评估者手动执行这些任务,然后VisionTasker的结果进行比较。



结果显示,VisionTasker在大多数任务中能达到与人类相当的完成率,并且在某些不熟悉的任务中表现优于人类。



△实际任务自动化实验的结果 “Ours-qwen”是指使用开源Qwen实现VisionTasker框架,”Ours”表示使用文心一言作为LLM

团队还评估了VisionTasker在不同条件下的表现,包括使用不同的大语言模型(LLM)和编程演示(PBD)机制。

VisionTasker 在大多数直观任务中达到了与人类相当的完成率,在熟悉任务中略低于人类但在不熟悉任务中优于人类。



△VisionTasker逐步完成任务的展示

结论

作为一个基于视觉和大模型的移动任务自动化框架,VisionTasker克服了现阶段移动任务自动化对视图层级结构的依赖。

通过一系列对比实验,证明其在用户界面表现上超越了传统的编程演示和视图层级结构方法。

它在4个不同的数据集上都展示了高效的UI表示能力,表现出更广泛的应用性;并在Android手机上的147个真实世界任务中,特别是在复杂任务的处理上,表现了出超越人类的任务完成能力。

此外,通过集成编程演示(PBD)机制,VisionTasker在任务自动化方面有显著的性能提升。

目前,该工作已以正式论文的形式发表于2024年10月13-16日在美国匹兹堡举行的人机交互顶级会议UIST(The ACM Symposium on User Interface Software and Technology)。

UIST是人机交互领域专注于人机界面软件和技术创新的CCF A类顶级学术会议。



原文链接:https://dl.acm.org/doi/10.1145/3654777.3676386
项目链接:https://github.com/AkimotoAyako/VisionTasker

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
入俄朝军被曝已有首次伤亡!乌克兰代表将访问韩国

入俄朝军被曝已有首次伤亡!乌克兰代表将访问韩国

项鹏飞
2024-10-31 21:12:59
女宇航员上太空前,为什么要吃避孕药?看完涨知识了

女宇航员上太空前,为什么要吃避孕药?看完涨知识了

小盖纪实
2024-10-30 15:39:43
马斯喀特赛:女单8强出4席,蒯曼3-0杜凯琹,石洵瑶3-0,何卓佳3-1

马斯喀特赛:女单8强出4席,蒯曼3-0杜凯琹,石洵瑶3-0,何卓佳3-1

阿牛体育说
2024-10-31 20:28:44
蒋介石去台湾时,他说:这三个人是国之重宝,必须带走,不走不行

蒋介石去台湾时,他说:这三个人是国之重宝,必须带走,不走不行

阿怡说史
2024-10-20 02:33:14
奥迪A7L:我都26.5万落地了,还是高功率,你们怎么还买奥迪A6L?

奥迪A7L:我都26.5万落地了,还是高功率,你们怎么还买奥迪A6L?

猫小狸同学
2024-10-30 20:15:02
曝顾国宁一周内病情恶化!父母相继离世打击大,离婚原因首次曝光

曝顾国宁一周内病情恶化!父母相继离世打击大,离婚原因首次曝光

老鹈爱历史
2024-10-30 11:25:15
民主党终于还是出手了,没想到是下三滥的手法

民主党终于还是出手了,没想到是下三滥的手法

叒女紫121
2024-10-31 07:38:50
当拿90斤的赵丽颖对比120斤的何超琼时,我才懂女人微胖才是极品

当拿90斤的赵丽颖对比120斤的何超琼时,我才懂女人微胖才是极品

娱乐圈笔娱君
2024-10-30 17:59:15
小米15新机首销日现场:买小米的女生变多了 之前都用iPhone

小米15新机首销日现场:买小米的女生变多了 之前都用iPhone

快科技
2024-10-31 16:36:18
梅婷领衔,仅1集,全国收视第一,年代剧的天花板已被改写?

梅婷领衔,仅1集,全国收视第一,年代剧的天花板已被改写?

观察鉴娱
2024-10-31 10:52:16
市值300亿的绩优股,一年三次分红股息率4.6%,从37元跌到12元

市值300亿的绩优股,一年三次分红股息率4.6%,从37元跌到12元

投资观
2024-10-25 08:20:02
曼城赚翻了!用白菜价签顶级边锋,恭喜瓜迪奥拉,喜提新马赫雷斯

曼城赚翻了!用白菜价签顶级边锋,恭喜瓜迪奥拉,喜提新马赫雷斯

小火箭爱体育
2024-10-31 14:38:11
39岁文章近况曝光!带女友外出聚餐,开200w大G,生活依旧潇洒

39岁文章近况曝光!带女友外出聚餐,开200w大G,生活依旧潇洒

叶公子
2024-10-31 18:43:09
10月30日的晚上,莫兰德让辽篮、广东的球迷都失望了!

10月30日的晚上,莫兰德让辽篮、广东的球迷都失望了!

阿牛体育说
2024-10-31 10:34:13
哈工大研究256名肺癌患者,吃惊发现:患肺癌的人,有3大爱好

哈工大研究256名肺癌患者,吃惊发现:患肺癌的人,有3大爱好

荷兰豆爱健康
2024-10-31 18:34:22
东京这一天,62岁何超琼用丰腴玉润的身材,给白幼瘦女星上了一课

东京这一天,62岁何超琼用丰腴玉润的身材,给白幼瘦女星上了一课

南城无双
2024-10-31 14:25:19
主持人赵普透露,顾国宁生前有一段新感情,19号还在微博上点赞

主持人赵普透露,顾国宁生前有一段新感情,19号还在微博上点赞

叨唠
2024-10-31 23:42:10
应届生薪资已回到3000元时代?毕业生自嘲:工资3800,每天笑哈哈

应届生薪资已回到3000元时代?毕业生自嘲:工资3800,每天笑哈哈

齐天候
2024-10-28 17:37:50
梦想种子已经种下!世体:亚马尔询问邦马蒂金球上是否刻有名字

梦想种子已经种下!世体:亚马尔询问邦马蒂金球上是否刻有名字

直播吧
2024-10-31 17:40:12
惊!台风“康妮”突然改道,暴雨已确定,11月1号降雨分布看过来

惊!台风“康妮”突然改道,暴雨已确定,11月1号降雨分布看过来

小毅说事
2024-10-31 12:51:59
2024-11-01 00:18:44
量子位
量子位
追踪人工智能动态
9536文章数 175629关注度
往期回顾 全部

科技要闻

华为前三季利润下滑 任正非:我们还在挣扎

头条要闻

盘点逝世香港演员:"左冷禅"离世2年后 "岳不群"也去了

头条要闻

盘点逝世香港演员:"左冷禅"离世2年后 "岳不群"也去了

体育要闻

姚明下课了,他是中国篮球罪人吗?

娱乐要闻

黄圣依再次选择不离引发炒作质疑

财经要闻

阿斯利康骗保案余波未止 多位药企高管被查

汽车要闻

腾势Z9 内饰官图首发 怀档设计/广州车展亮相

态度原创

艺术
教育
数码
时尚
本地

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

教育要闻

“当课本上的内容照进现实,教育实现了它的闭环。”

数码要闻

汉王 10.3 英寸智能手写办公本 M10 开售,4199 元

不穿秋裤的年轻人,秋冬穿什么?

本地新闻

云游中国|我与这座城市 合得来 不怕肥

无障碍浏览 进入关怀版