网易首页 > 网易号 > 正文 申请入驻

微软开源AI基准测试:涵盖154项任务,20分钟全面评估,大幅缩短AI Agent开发周期

0
分享至

智东西9月14日消息,据VentureBeat昨日报道,微软公布了一项名为“Windows Agent Arena(WAA)”的开创性基准测试。该测试用于在Windows操作环境中对AI Agent性能进行评估,旨在为AI Agent开发提速。

该论文发表在arXiv.org上。研究人员写道:“大语言模型在AI Agent领域显示出巨大的潜力,能够在需要规划和推理的多模态任务中提升人类生产力和软件的可用性。”同时还补充道:“然而,在真实环境中衡量AI Agent性能依然是一个挑战。”

论文链接:https://arxiv.org/pdf/2409.08264

WAA的创新点在于,它能够在微软Azure云科技中的多个虚拟机上进行并行测试,在短短20分钟内就可完成全面的基准评估。

此外,微软还将多模态AI Agent Navi引入测试,以展示WAA的能力。经检验,Navi在WAA测试中任务完成的成功率为19.5%,而人类的成功率是74.5%。


▲Windows Agent Arena(来源:Windows Agent Arena页面)

一、涵盖154项任务测试,全面基准评估时长缩短至20分钟

Windows Agent Arena提供了一个可复现测试环境,其中AI Agent与常见的Windows应用程序、网络浏览器和系统工具进行交互,模拟人类用户体验,继而帮助开发者评估和优化AI Agent的能力。

微软的研究人员写道,在真实环境中测试Agent性能仍然是一个挑战,这是因为大多数基准测试仅限于特定模式或领域(例如,纯文本、Web导航、问答、编码);另外鉴于任务的多步骤顺序性质,完整的基准评估很慢(大约几天时间)。

WAA的一个关键创新是能够在微软Azure云科技中的多个虚拟机上进行并行测试。论文解释称:“我们的基准测试是可扩展的,可以在Azure中无缝并行处理,在短短20分钟内就可完成全面的基准评估。”与传统可能需要数天的顺序测试相比,这极大地加快了AI Agent开发周期。

该测试包含了154个不同任务,涵盖编辑文档和电子表格(LibreOffice Calc/Writer)、浏览互联网(微软Edge、Google Chrome)、Windows系统任务(文件资源管理器、设置)、编码(Visual Studio Code)、观看视频(VLC播放器)和实用功能(记事本、时钟、画图)。


▲涵盖的测试具体任务显示(图源:Windows Agent Arena页面)

二、测试AI Agent任务成功率仅19.5%,远低于人类操作能力

Windows Agent Arena项目页面显示:“为了展示WAA的能力,我们还引入了一种新的多模态AI Agent Navi。”

//oss.zhidx.com/uploads/2024/09/66e51131cc06d_66e51131c7a14_66e51131c79ef_vscode.mp4

▲Navi在Windows Agent Arena中面对一个典型的Windows任务:在Visual Studio Code中安装Pylance扩展。这展示了如何训练AI Agent人在普通软件环境中导航(来源:微软研究院)

测试结果显示,Navi在WAA中的成功率为19.5%,而人类的成功率是74.5%。这说明想开发出能与人类计算机操作能力相仿的AI,还存在很大挑战。


▲Navi在任务期间的推理过程和屏幕解析的分步示例(图源:Windows Agent Arena页面)

这项研究的主要作者Rogerio Bonatti说:“Windows Agent Arena为实现AI Agent的突破,提供了一个现实而全面的环境。同时,我们也希望通过AWW开源,来推进整个AI社区在这一关键领域的研究。”

此外,微软对几种最先进的视觉语言模型Agent配置都进行了基准测试,发现与人类行为相比所有现有模型的性能都较低,并且模型之间性能也存在很大差异。

WAA的发布正值科技巨头之间竞争加剧之际,他们正在开发功能更强大的AI Agent,以应对复杂的计算机任务。

微软对Windows环境的关注可能会使其在企业场景中保持主导优势。

三、AI Agent时需平衡创新和伦理

像Navi这样的AI Agent带来的潜在好处是显著的,但开发此类技术也引发了重要的伦理考量。

随着AI Agent变得越来越复杂,它们将更全面地访问用户的数字生活,可能会在各种应用程序中与用户的敏感个人信息、专业信息产生接触。

AI Agent在Windows环境中具有自由操作的能力,比如访问文件、发送电子邮件或修改系统设置等等,这都显示出采取强大的隐私保护措施的必要性。

在赋予AI有效协助用户的能力与维护用户隐私、控制用户数字领域之间,需要找到一个微妙的平衡点。

此外,随着AI Agent越来越能够模仿人类与计算机系统的交互,还出现了有关透明度和问责制的问题。

当用户与AI交互时,特别是在专业或者高风险场景中,可能需要被明确告知,因此明确用户同意协议也至关重要。

结语:开源WAA也需提升风险防控意识

微软开源了Windows Agent Arena,朝着提升协作开发和审查技术迈出积极一步。

但与此同时,可能会有人使用该测试去开发具有恶意的AI Agent,这意味着人们需要对此领域保持必要警惕和监管。

随着WAA为开发功能更强大的AI Agent加速,研究人员、伦理学家、政策制定者和公众就这些技术的影响进行持续讨论,将至关重要。

来源:VentureBeat、Windows Agent Arena页面

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海偶遇Angelababy!素颜带小海绵抓娃娃,现场无人打扰太暖心

上海偶遇Angelababy!素颜带小海绵抓娃娃,现场无人打扰太暖心

观鱼听雨
2026-05-05 23:43:22
我有罪,大导演昆汀花1万美金,在包房舔脚半小时,直到皮肤起皱

我有罪,大导演昆汀花1万美金,在包房舔脚半小时,直到皮肤起皱

西楼知趣杂谈
2026-04-20 08:40:47
长江后浪推前浪!宁波服装巨头独女接班家业,靠投资再给父亲争光

长江后浪推前浪!宁波服装巨头独女接班家业,靠投资再给父亲争光

大鱼简科
2026-05-07 17:22:07
蔚来车主为啥不爱买电池了?算完账我悟了

蔚来车主为啥不爱买电池了?算完账我悟了

刘哥谈体育
2026-05-08 03:11:33
现代医学最残忍的行为,让人后怕

现代医学最残忍的行为,让人后怕

茶余饭好
2026-05-05 14:50:57
司美格鲁肽的好日子到头了?

司美格鲁肽的好日子到头了?

新浪财经
2026-05-07 09:10:57
西媒:皇马暂不考虑出售楚阿和巴尔韦德,仍视二人为关键球员

西媒:皇马暂不考虑出售楚阿和巴尔韦德,仍视二人为关键球员

懂球帝
2026-05-08 06:19:16
这“主角”到底是何方神圣,竟让张艺谋、张嘉益、刘浩存、王菲等人一起“追捧”

这“主角”到底是何方神圣,竟让张艺谋、张嘉益、刘浩存、王菲等人一起“追捧”

人格志
2026-05-07 21:24:12
欧冠决赛开球时间提前?切费林:这是为了提升球迷的观赛体验

欧冠决赛开球时间提前?切费林:这是为了提升球迷的观赛体验

懂球帝
2026-05-07 10:24:12
71.5%!历史性暴跌,以贷养贷的泡沫崩了

71.5%!历史性暴跌,以贷养贷的泡沫崩了

月满大江流
2026-04-16 13:54:38
金晨一纸道歉,把央视人民日报都给惊动了,我却要笑死在评论区了

金晨一纸道歉,把央视人民日报都给惊动了,我却要笑死在评论区了

娱乐故事
2026-01-30 21:47:39
尺度拉满,Netflix把A片之王搬上了荧幕

尺度拉满,Netflix把A片之王搬上了荧幕

来看美剧
2026-05-06 16:54:02
张柏芝姐姐移民加拿大15年,称混血面孔难在香港发展,已转行卖房

张柏芝姐姐移民加拿大15年,称混血面孔难在香港发展,已转行卖房

树娃
2026-05-07 10:19:51
每天一把保健品?专家:盲目服用当心中毒 这三类人尤其小心

每天一把保健品?专家:盲目服用当心中毒 这三类人尤其小心

大象新闻
2026-01-30 21:13:03
赖清德窜访团集体向非洲王室蹲跪献礼,台网友讽刺其“出访”靠“偷渡”,“参见”靠“下跪”

赖清德窜访团集体向非洲王室蹲跪献礼,台网友讽刺其“出访”靠“偷渡”,“参见”靠“下跪”

极目新闻
2026-05-07 07:33:33
掘金名宿批老板抠门:休赛期别指望有大动作

掘金名宿批老板抠门:休赛期别指望有大动作

绿茵狂热者
2026-05-08 04:06:36
吴宜泽夺冠后首度现身国内,在西安机场受球迷接机送花,之后还将举行见面会,此前他曾表示想回国吃美食、见朋友

吴宜泽夺冠后首度现身国内,在西安机场受球迷接机送花,之后还将举行见面会,此前他曾表示想回国吃美食、见朋友

极目新闻
2026-05-07 07:12:51
上海成为2028年奥运会资格系列赛举办城市

上海成为2028年奥运会资格系列赛举办城市

新京报
2026-05-07 22:18:45
一场1-1,让西甲赢麻了!基本锁定欧冠金靴+5个欧冠直通名额在望

一场1-1,让西甲赢麻了!基本锁定欧冠金靴+5个欧冠直通名额在望

阿晞体育
2026-05-07 07:55:20
女子玩“悬崖秋千”坠亡,目击者发声:所有人都吓懵了,看到遇难女孩头部撞到山崖,“连续几天做噩梦,一直都是那个画面”

女子玩“悬崖秋千”坠亡,目击者发声:所有人都吓懵了,看到遇难女孩头部撞到山崖,“连续几天做噩梦,一直都是那个画面”

芒果都市
2026-05-07 10:49:42
2026-05-08 07:20:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11766文章数 117062关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

伊朗武装部队:美军违反停火协议空袭伊朗 已反击

头条要闻

伊朗武装部队:美军违反停火协议空袭伊朗 已反击

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

Lisa主持!宁艺卓观看脱衣秀风波升级

财经要闻

人均年薪406万,这家ST公司惊呆市场!

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

游戏
健康
时尚
房产
公开课

《远星物语》团队新作《皓白初晓》登Steam EA

干细胞治烧烫伤面临这些“瓶颈”

今年最火的4双平底鞋,配小黑裙好看又气质!

房产要闻

负债23亿,抵押482亩地!海南这家巨头,惨遭拍卖!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版