网易首页 > 网易号 > 正文 申请入驻

被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估

0
分享至

新智元报道

编辑:犀牛 好困

【新智元导读】还在用枯燥的数学题和编程题测试AI?落伍啦!现在,打游戏就能测出AI的真实力。GameArena团队打造的Roblox新游《AI空间逃脱》,让你在紧张刺激的密室逃脱中,顺便就把AI模型的推理能力给评估了。这不仅比传统测试方法更有趣,还能生成宝贵的游戏数据,帮助开发者更全面地了解AI的强项与短板。

你以为你在打游戏,其实是在给模型做评测!

就在两天前,由UCSD、UC伯克利等机构联合组建的GameArena团队开发了一个实时Roblox游戏「AI Space Escape」(AI空间逃脱),提供了一种与AI互动的独特体验。

现在,你想要测试不同模型的性能对比,打着游戏就能把活儿给干了。

在娱乐性之外,这款游戏还生成了游戏数据,在实时场景中评估AI的推理能力,从而测试模型性能不必只能依赖数学和编程基准。

GameArena团队将把所有游戏数据、评估脚本和代码公开,供进一步研究使用。

论文地址:https://arxiv.org/abs/2412.06394

项目地址:https://lmgame.org/

一经发布,很快就有网友尝鲜实测了游戏,「和朋友一起组队逃离空间站,还要齐心协力解决各种谜题和机关,真是刺激!」

该网友表示,他们在游戏中被AI机器人追得团团转,还好最后成功逃脱了,哈哈!最后他还强烈推荐大家也来试试!

还有网友表示称AI Space Escape游戏「 延迟超低,画面也清晰!」。

背景故事

在AI Space Escape游戏中,你将扮演一名在2075年,一次殖民半人马座比邻星任务中的一员。

在漫长的4.2光年旅程中,你大部分时间都在低温休眠舱中度过。直到有一天,你醒来发现飞船处于紧急封锁状态,自毁程序已经启动!

你的任务很明确:在各种场景中与AI合作或比它们更聪明,在时间耗尽之前到达逃生舱。通过与AI进行「推理游戏」中的互动解谜,你必须在压力下展现出逻辑思维和应变能力。

推理游戏

为了评估AI的推理能力并提供刺激的游戏体验,游戏设计了三个关键的「迷你推理游戏」。分别是AI Akinator、AI Taboo和AI Bluffing。

每个游戏都测试了LLM在多轮对话中连接上下文的能力。

AI Akinator(猜词游戏)这个游戏中,一些AI守卫由于系统故障无法访问门禁密码,并且他们由于系统故障只能理解「是」或者「否」的语音信息。因此你的任务是通过回答一系列「是」或者「否」的问题来帮助他们推断出密码。足够强大的LLM必须综合多轮信息,合理给出问题,有效地缩小密码可能性范围。

AI Taboo(禁忌词)游戏的规则是,在某些房间里,你可以入侵系统获取密码。但是,门禁需要进行语音验证。玩家的任务是通过巧妙地引导对话,让AI守卫说出密码而不被发现,从而智胜AI守卫。LLM必须从不完整的线索中推断出目标词,并连接多个提示中的信息,同时保持对话流畅。

AI Bluffing(虚张声势)游戏中,系统故障导致某些AI机器人无法识别你的身份。你需要通过展示你的成就和技能记录来说服它们相信你的身份。LLM在做出决定之前最多可以问五个问题。

在游戏中评估LLM

除了娱乐性之外,每次游戏会话都会为LLM提供宝贵的人类反馈,以形成游戏中的推理轨迹。

这些游戏数据被证明对评估LLM非常有效。但在深入探讨如何进行评估之前,你可能会问:为什么LLM评估如此重要?

下图2展示了截至2025年2月5日的LMSYS聊天机器人竞技场排名。

LLM正在迅速发展,变得越来越强大,并且在某些任务中经常达到甚至超越人类的表现,这就需要我们对其性能差距进行持续量化。

此外,除了在聊天应用中使用外,LLM在提高数学、编程问题的解决能力,甚至促进科学发现方面也具有巨大潜力,从而扩大了其在各个领域的影响。

这种日益增长的潜力迫切地需求一个强大的推理基准,能够有效地对下一代模型进行排名和评估。

现有基准的局限性

静态评估,如MMLU、Spider和HumanEval,提供了对特定能力的评估,但依赖于不太直观的指标,如F1、BLEU和ROUGE。此外,它们的静态性质使得这些基准更容易被LLM利用,如MT-Bench中看到的那样。

相比之下,动态评估如Chatbot Arena提供了更加直观的指标,如胜率或Elo分数,且更难被操控。然而,它们存在反馈率低(Chatbot Arena约为 4%),而且Elo评分中耦合了多种能力,这限制了它们评估特定技能的颗粒度。

Game Arena为何与众不同?

为了应对上述挑战,GameArena采用了下面几种方法。

首先,他们引入了一种激励性的、动态的基准,通过实时电脑游戏来评估许多现实生活中所需的互动和战略推理任务。

其次,整个过程涉及三个推理游戏,每个游戏针对了不同的推理能力。

最后,Game Arena采用了创新的评估方法,基于游戏结果和推理过程来评估大语言模型(LLM)的能力。

下表1展示了Akinator、 Taboo和Bluffing游戏中涉及的主要推理能力。

结果排名

GameArena的评估结果显示,良好对齐的模型具有强大的推理能力和多轮指令跟随能力,例如claude-3.5-sonnet和gemini-1.5-pro在GameArena中排名靠前。

推理模型如gemini-2.0-flash-thinking-exp-01-21、deepseek-r1和o1-mini在游戏上表现良好,但会带来轻微甚至显著更高的延迟。

模型在较短对话中表现出色但在长时间游戏会话中推理能力较差,如Mistral-Large-2,通常在GameArena中的排名靠后。

下表2显示截至2025年2月12日,游戏竞技场的模型排名情况(按三场比赛的平均分排序)。

除此之外,团队还进行了一项用户研究,比较了来自GameArena的2000多场游戏会话和Chatbot Arena中相同数量会话的用户体验和参与意愿。

结果显示,超过70%的用户更喜欢GameArena中的游戏,相比之下,只有 45%的用户表示喜欢在Chatbot Arena中做测试。超过80%的参与者对GameArena的游戏体验表示满意,而对Chatbot Arena表示满意的用户则还不到40%。

团队发现来自GameArena的游戏会话中有约87%是完整且有用的,而Chatbot Arena中仅有4%的对话提供了有意义的对话(因为其依赖于自愿参与)。

下图3展示了100名具有不同背景的用户测试结果。

「想象一下,众神正在玩一场像国际象棋一样的大游戏,而你不知道规则。你偶尔可以观察棋盘,试图推测棋子移动的规则……后来你可能会发现主教的规则是它沿对角线移动,这也能解释你之前对于规则的理解:它保持自己的颜色不变。」

这段比喻由著名物理学家理查德·费曼在1983年《有趣的想象》电视系列节目中提出,将理解物理学比作仅凭观察学习国际象棋的规则。

它说明了伟大的科学家们是如何发现自然法则的:通过观察模式并推断出背后的原理。

四十年后的今天,随着现代人工智能的到来,从AlphaFold-3到Deep Research,最先进的AI系统现在展现出颠覆科学探索的逻辑推断潜力。

归纳推理的力量正从卓越的人类大脑传递到人工智能中。

鉴于游戏和科学推理之间的相似性,一个有趣的问题开始浮现:游戏能否作为评估人工智能能力和潜力的媒介?

带着这些疑问和灵感,我们不懈地寻求对人工智能的更深入理解,以及在未来由超越人类能力的人工智能塑造的世界中,人类角色的演变。

参考资料:

https://lmgame.org/#/blog/ai_space_escape

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈坤不再回避儿子生母身份,高调官宣喜讯:瞒了20多年,终于!

陈坤不再回避儿子生母身份,高调官宣喜讯:瞒了20多年,终于!

感恩每一刻
2026-05-17 21:06:09
八旬老人独居养老院两年,想要返乡却遭女儿反对:我经常半夜哭

八旬老人独居养老院两年,想要返乡却遭女儿反对:我经常半夜哭

福建第一帮帮团
2026-05-17 19:00:59
大争议!北京罚球6-21+一度罚球0-17 仍终结上海26连胜太强硬

大争议!北京罚球6-21+一度罚球0-17 仍终结上海26连胜太强硬

醉卧浮生
2026-05-17 21:37:14
生死战只拿3分的核心,还有留的必要吗?

生死战只拿3分的核心,还有留的必要吗?

只关于篮球
2026-05-17 13:00:06
特朗普这次可能真说对了:联合国悄悄“认错”,被宣传了15年的地球末日论是假的?

特朗普这次可能真说对了:联合国悄悄“认错”,被宣传了15年的地球末日论是假的?

西游日记
2026-05-17 18:09:10
黄仁勋的女助理曝光,气质温婉,比老婆还了解他,比老婆还难找

黄仁勋的女助理曝光,气质温婉,比老婆还了解他,比老婆还难找

魔都姐姐杂谈
2026-05-17 09:48:25
宋祖英如今模样大变,昔日辣妹子竟有了奶奶范,岁月无情催人老哇

宋祖英如今模样大变,昔日辣妹子竟有了奶奶范,岁月无情催人老哇

东方不败然多多
2026-05-17 22:46:31
网友终于把洁丽雅复杂的家族关系整理清楚了

网友终于把洁丽雅复杂的家族关系整理清楚了

大张的自留地
2026-05-17 11:25:46
湖北省原省长被查,十天前曾在媒体发表署名文章

湖北省原省长被查,十天前曾在媒体发表署名文章

中国新闻周刊
2026-05-17 22:46:40
嫁法国老头后瘫痪?42岁李宇春近况曝光,真相背后隐情惹人流泪

嫁法国老头后瘫痪?42岁李宇春近况曝光,真相背后隐情惹人流泪

借你一生
2026-05-15 19:25:13
乌克兰发表重磅声明:若俄不撤军将重新制造核武器

乌克兰发表重磅声明:若俄不撤军将重新制造核武器

史政先锋
2026-05-17 19:53:49
好看的皮囊,确实是好看啊!

好看的皮囊,确实是好看啊!

芳华青年
2026-05-17 16:10:28
中方终于不再客气:欧盟欺人太甚,早就没了高高在上的资格

中方终于不再客气:欧盟欺人太甚,早就没了高高在上的资格

空天力量
2026-05-17 19:15:27
杭州一小区3楼租户长期有噪音,2楼小夫妻买震楼器反击,结果1楼报了警!派出所上门调解10次,次次不欢而散,最后请来了房东……

杭州一小区3楼租户长期有噪音,2楼小夫妻买震楼器反击,结果1楼报了警!派出所上门调解10次,次次不欢而散,最后请来了房东……

都市快报橙柿互动
2026-05-17 15:24:46
酒店晒证据实锤,换装新娘另有目的!宾客是冤大头,不走就得被割

酒店晒证据实锤,换装新娘另有目的!宾客是冤大头,不走就得被割

秋姐居
2026-05-17 11:31:58
三天票房只有1.2万,观众差评如潮,主旋律这块金字招牌彻底砸了

三天票房只有1.2万,观众差评如潮,主旋律这块金字招牌彻底砸了

影视高原说
2026-05-17 15:29:59
樊振东罕见连丢6局,莫雷加德2分救主,萨尔布吕肯第4次登顶欧冠

樊振东罕见连丢6局,莫雷加德2分救主,萨尔布吕肯第4次登顶欧冠

乒谈
2026-05-17 22:29:17
“中国刻蚀机之父”尹志尧:已经有能力来做最先进的设备

“中国刻蚀机之父”尹志尧:已经有能力来做最先进的设备

界面新闻
2026-05-17 14:54:02
李泽楷现身何超蕸追悼会,现场曝光照看起来很生气,郭晶晶也在!

李泽楷现身何超蕸追悼会,现场曝光照看起来很生气,郭晶晶也在!

娱乐团长
2026-05-17 21:15:07
正部级王晓东被查:40岁成为副省级干部,曾担任湖北省省长

正部级王晓东被查:40岁成为副省级干部,曾担任湖北省省长

界面新闻
2026-05-17 19:15:02
2026-05-18 01:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15235文章数 66874关注度
往期回顾 全部

游戏要闻

《星空》PlayStation 5版试玩报告:低速航行"/> 主站 商城 论坛 自运营 登录 注册 《星空》PlayStation 5版试玩报告:低速航...

头条要闻

湖北省原省长被查 十天前曾在媒体发表署名文章

头条要闻

湖北省原省长被查 十天前曾在媒体发表署名文章

体育要闻

生死战只拿3分的核心,还有留的必要吗?

娱乐要闻

卢昱晓道歉:认识到问题严重性!

财经要闻

长鑫科技 预计上半年净利至少500亿元

科技要闻

三大运营商即将免月租?多方回应

汽车要闻

车长超5米/双动力可选 昊铂S600预售权益价18.89万起

态度原创

家居
时尚
亲子
教育
手机

家居要闻

110㎡淡而有致的生活表达

“这条裙子”是今年夏天的顶流!谁穿谁好看

亲子要闻

健康夜话 | 触摸世界,不止屏幕一种方式

教育要闻

要破产了啊:亏损最严重的几所英国大学!

手机要闻

小米玄戒芯片确认迭代!Air机型取消原因曝光

无障碍浏览 进入关怀版