网易首页 > 网易号 > 正文 申请入驻

AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

0
分享至

新智元报道

编辑:定慧

【新智元导读】还在用搜索和规则训练AI游戏?现在直接「看回放」学打宝可梦了!德州大学奥斯汀分校的研究团队用Transformer和离线强化学习打造出一个智能体,不靠规则、没用启发式算法,纯靠47.5万场人类对战回放训练出来,居然打上了Pokémon Showdown全球前10%!

AI 又有「新活」了!

德州大学奥斯汀分校的研究团队用Transformers和离线强化学习训练出了一个宝可梦对战AI智能体,不但打法像人,还能在全球排名中杀进前 10%。

论文地址:https://metamon.tech/

是的,你没看错,这不是那种靠搜索和规则的AI,而是靠人类历史对战数据「喂出来」的智能体,能自己学着打。

这个宝可梦游戏(全称Competitive Pokémon Singles)有多复杂呢?

在对战平台https://pokemonshowdown.com/上可以看到,即使不考虑策略,光是精灵、动作和物品的数量已经多到了非常夸张的程度(根本翻不完)。

这意味着,AI要在信息不完全、策略博弈的环境中,把每一步出招、每一次换人,都当成下围棋一样来算。

宝可梦对战融合了国际象棋般的长远策略规划、扑克牌那样充满未知信息和随机性,再加上足以填满一本百科全书的宝可梦、招式、特性和规则。玩家需要精心设计和操控自己的宝可梦队伍,击败对手的所有宝可梦才能获胜。这样一个充满不确定性、状态空间极其庞大的游戏,对AI来说是绝佳又极具挑战性的研究课题。

这种硬核程度,更像是宝可梦版的《星际争霸》。

把「回放」喂给 AI,教它打宝可梦

研究团队开发了一个名为Metamon的平台,它使用来自Pokémon Showdown(以下简称PS)的人类游戏数据集来启用离线RL工作流。

PS会创建一个日志(过程「回放」),记录每场战斗。

玩家保存日志以供日后研究、与朋友分享有趣的结果,或作为记录官方锦标赛结果的证明。

PS的回放数据已经超过十年——足够的时间积累数百万个重放,比如下面的是10年前2014年的战斗回放。

PS回放数据集是一个完全的、自然发生的人类数据集合,但这个数据集有个问题——这些数据是以第三方角度收集的,而不是第一人称,训练智能体需要用第一人称视角。

研究团队通过将观众视角分别转换为每个玩家的视角来解锁PS回放数据集。

最终,研究团队搞出一个47.5万局真实人类对战组成的离线强化学习数据集,而且每天还在持续增长中。

在序列数据上使用离线强化学习算法训练

宝可梦拥有一个非常复杂的状态空间,因此在使用离线强化学习(offline RL)进行训练时,策略模型可能需要具备较大的规模和复杂的结构。

为了使训练过程更加稳定,将这个问题转化为行为克隆(Behavior Cloning, BC)的角度来理解:预测一个人类玩家的动作,实际上是在尝试推理模仿的这个玩家的策略,以及他们对对手的理解。

为了实现准确的预测,模型往往需要较长的上下文输入。

强化学习(RL)在这种场景下的作用,是帮助我们从包含了不同水平玩家(包括竞技和休闲玩家)决策的大规模数据中,筛选出有效信息。

采用的解决方案是actor-critic架构,其中critic的训练方式是使用标准的一步时序差分(temporal difference, TD)更新来输出Q值。至于actor的损失函数,其一般形式如下:

接下来,需要为CPS(Competitive Pokémon Simulator)定义观测空间、动作空间和奖励函数。

智能体需要获取足够的信息,以便能够模拟人类玩家的决策,而PS网站的用户界面是一个显而易见的参考点。

不过,由于模型具备记忆能力,因此无需在每一个时间步都提供全部信息。

最终达成了一个折中方案:输入由87个文本词语和48个数值特征组成。

下图展示了数据集中一场回放中的示例。观测只包含对手当前上场的宝可梦。

仅仅依靠强化学习能打赢人类吗?

传统做法教AI玩游戏,通常会设计规则、模拟状态、设计算法。

但这篇论文反其道而行之:直接喂数据,让它「模仿」人类怎么打。

他们训练了多个大小不同的智能体,从1500万参数的小模型,到2亿参数的大模型。

其中有的通过模仿学习训练(IL),有的则用离线强化学习(RL)进一步优化,还有的则加上「自我对战」的数据做微调。

可以在Pokémon Showdown上观看各个模型的游戏重播。

最强AI打上全球天梯前 10%

说了这么多,这AI真的能打吗?

研究者将多个版本的模型送上Pokémon Showdown的天梯服务器——这是全世界宝可梦高玩集中的地方。

结果模型居然排进了全球活跃玩家的前10%,并成功登上了排行榜。

在图中展示了Glicko-1阶梯分数及其评分偏差。柱状图标签标注的是GXE(胜率期望)统计数据。

阶梯分位数(Ladder Percentiles),在 2025年2月至3月期间下载的回放数据中,共识别出14,022个在第1到第4世代活跃的用户名。

以第1世代(Gen1)为例,在这些用户名中,有5,095个参与了 Gen1OU(标准对战规则),其中有2,661个活跃度较高,达到了在最终结果统计时拥有有效 GXE(胜率期望)数据的标准。

这可能是你第一次听说有人用Transformer打宝可梦,还打赢了人类。

但从技术视角看,这背后是强化学习、模仿学习、大模型训练和数据重构的完整链路。

它不只是一个「有趣的实验」,更像是一次对数据驱动游戏 AI 的深度演练。

下一步,或许可以不是打游戏,而是让AI玩转更复杂的现实任务。

此外,不同的训练策略以及大规模自我对战(self-play)技术,或许能够让智能体带来超越人类表现的突破。

参考资料:

https://x.com/yukez/status/1909993963848622206

https://metamon.tech/

https://arxiv.org/abs/2504.04395

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘震云:如果你一听到伴侣说话就烦躁,有股无名火,真正的原因不是你讨厌他,也不是你脾气不好,而是条件反射

刘震云:如果你一听到伴侣说话就烦躁,有股无名火,真正的原因不是你讨厌他,也不是你脾气不好,而是条件反射

脆皮先生
2026-05-13 19:42:42
阿森纳夺冠就翻脸!29 岁巨星仅 500 万甩卖,昔日王牌彻底边缘化

阿森纳夺冠就翻脸!29 岁巨星仅 500 万甩卖,昔日王牌彻底边缘化

澜归序
2026-05-24 05:47:42
输给广厦出局后!周鹏去向曝光,深圳寻求交易广东,租借黄明依?

输给广厦出局后!周鹏去向曝光,深圳寻求交易广东,租借黄明依?

绯雨儿
2026-05-24 12:14:05
俄罗斯让中国心凉?真正恐怖的并非西方围堵,而是我们低估了自己

俄罗斯让中国心凉?真正恐怖的并非西方围堵,而是我们低估了自己

混沌录
2026-04-09 16:27:09
14岁女孩“满是槽点”的生日照,拆穿家长真面目:不偏心也不负责

14岁女孩“满是槽点”的生日照,拆穿家长真面目:不偏心也不负责

妍妍教育日记
2026-05-24 09:30:16
14岁开演唱会,23岁一首歌狂赚2亿,29岁成教授,他如今怎样了?

14岁开演唱会,23岁一首歌狂赚2亿,29岁成教授,他如今怎样了?

飘飘然的娱乐汇
2026-05-18 19:45:05
砸锅卖铁也要拿下!美记:火箭可用申京+小贾交易字母哥

砸锅卖铁也要拿下!美记:火箭可用申京+小贾交易字母哥

爱体育
2026-05-24 23:45:37
No!宣布了!再见徐杰!中国男篮更新大名单

No!宣布了!再见徐杰!中国男篮更新大名单

篮球实战宝典
2026-05-24 22:35:40
开市客入驻京东:官方旗舰店上线

开市客入驻京东:官方旗舰店上线

互联网圈子那点事
2026-05-23 17:49:09
特尔施特根赛季奇遇:随巴萨夺冠却随赫罗纳降级,仅出场两次

特尔施特根赛季奇遇:随巴萨夺冠却随赫罗纳降级,仅出场两次

星耀国际足坛
2026-05-24 21:12:06
俄上万亿高铁项目,不用中国高铁技术,采用锡纳拉集团,如今咋样

俄上万亿高铁项目,不用中国高铁技术,采用锡纳拉集团,如今咋样

梁濆爱玩车
2026-05-24 10:25:43
央视科普的“高钾晚餐”火了!连吃7天,腰围直接缩7cm

央视科普的“高钾晚餐”火了!连吃7天,腰围直接缩7cm

健身狂人
2026-05-22 00:01:54
巴基斯坦总理:我们会取得成功,成为“小中国”

巴基斯坦总理:我们会取得成功,成为“小中国”

观察者网
2026-05-24 21:30:08
越南准备成为下一个乌克兰?一旦中越开战,中国还会手下留情吗?

越南准备成为下一个乌克兰?一旦中越开战,中国还会手下留情吗?

趣味八卦
2026-05-24 21:11:36
韩媒曾警告:一旦东亚开战,韩导弹将降落北京,同时摧毁中国海军

韩媒曾警告:一旦东亚开战,韩导弹将降落北京,同时摧毁中国海军

致敬明天的太阳
2026-05-24 21:34:40
央媒发文,高调官宣张艺谋新身份,全家移民美国改国籍真相大白

央媒发文,高调官宣张艺谋新身份,全家移民美国改国籍真相大白

一盅情怀
2026-05-24 15:46:55
何九华官宣当爸仅1周,王鸥出手“反击”,这下里子面子全丢了

何九华官宣当爸仅1周,王鸥出手“反击”,这下里子面子全丢了

星星没有你亮
2026-05-22 06:54:17
樊振东没想到,惨败遭群嘲后,国乒球员站出来挺他的,竟是林诗栋

樊振东没想到,惨败遭群嘲后,国乒球员站出来挺他的,竟是林诗栋

精彩背后
2026-05-24 23:17:34
访华时间“撞”了?天安门广场挂起中巴中塞国旗!

访华时间“撞”了?天安门广场挂起中巴中塞国旗!

看看新闻Knews
2026-05-24 17:54:07
快讯!乌克兰突然宣布了!

快讯!乌克兰突然宣布了!

故事终将光明磊落
2026-05-24 14:38:45
2026-05-25 00:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15296文章数 66884关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

什么情况下,本轮AI大行情会结束?

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

游戏
时尚
健康
本地
教育

胖头鱼玩家狂喜!《坦克世界》C系坦歼WZ113G终于要有3D涂装了

《低智商犯罪》一半惊喜,一半可惜

外泌体 ≠ 生长因子!它们之间究竟有何区别?

本地新闻

用云锦的方式,打开江苏南京

教育要闻

北京一本“守门员”率先出手!流出的这张图把家长看麻了

无障碍浏览 进入关怀版