网易首页 > 网易号 > 正文 申请入驻

IJCAI 2020 麻将AI赛:腾讯研究员拿下冠军,清华学子 3 天进前十

0
分享至

作者 | 蒋宝尚、白莎莎

编辑 | 陈彩娴

围棋AlphaGo点燃的AI之火渐渐降温之际,人类在传统娱乐项目麻将上的成绩,也被一次次按在地上“摩擦”。

近日, 在IJCAI 2020 麻将人工智能竞赛中,来自腾讯 AI 的 SuperJong 团队采用强化学习模型从零开始自我对弈训练,以 1338 分取得冠军。

这是一个非常不错的成绩。

与围棋等游戏不同的是,麻将更加规则复杂、胜负判定繁琐、信息非完全公开的,且更重要的是在公众认知中麻将更多地有“运气”和“凭直觉”的成分。

换句话说,如果一个人运气比较差,拿到一手烂牌,可能再强的实力也只能是输得不那么难看。 所以,麻将不像围棋一样,不能单靠一轮对弈,而是要通过多轮(甚至上千轮)对弈才能看出一个雀士的实力。

图注:前16名队伍信息。表格的AI算法列中,RL指强化学习,SL指监督学习,主要指使用对局数据模拟其他玩家/AI决策

这次冠军队是个人参赛,来自腾讯 AI,所采用的方式是 强化学习算法框架。 如上所示,比赛前4 名也被强化学习包揽,北京大学有 6 支以个人参赛的队伍也打进了16 强。未使用强化学习的队伍主要采用搜索、剪枝、专家经验等方法,设计估值函数时考虑了向听数、游戏巡目等因素。

1

冠军如何诞生?

冠军团队来自腾讯,参赛者以个人参赛,用名Yata。其设计的SuperJong 模型架构是一个非常深的卷积神经网络(CNN)。 在训练中使用不仅包含可见的信息,也包含不可见的信息。模型架构倾向于从零开始“自我发挥”,相当于在异步训练。

为了充分利用CNN的优势,SuperJong 将大部分相关信息编码成类似图像特征,包括玩家牌的特征,例如顺子、杠、对等。 这其中也涉及到了非完美信息问题,因为在麻将中,每个玩家除了手中的13张牌和已经打出的牌外,其他玩家手中的牌和剩余的底牌都是未知的(最多可以有超过120 张未知的牌)。 由于隐藏信息过多导致游戏树的宽度非常大,树搜索算法基本不可行。

为了克服非完美信息博弈的问题, 研究者在训练阶段利用不可见的一些隐藏信息来引导AI模型的训练方向 ,让它的学习路径更加清晰、更加接近完美信息意义下的最优路径,从而倒逼AI模型更加深入地理解可见信息,从中找到有效的决策依据。

具体的算法设计如上图所示, 研究者采用了“Shanhu”特征,即考虑当前牌面和胡牌的差距,可以通过弃掉一些不需要的牌从而得到一些需要的牌,把现在的牌变成胜算较大的一副牌 。Shanhu特征的思维贯穿了模型设计的始末。

在模型设计中,通过输入所有相关信息。研究者构造了一个端到端的神经网络。最后,神经网络会输出所有动作的概率,在训练过程中,利用全局值使网络更准确地预测状态值。

整个神经网络一共有“三大块”(OWN、Others、Global),每一块都有三个残差层和一个过渡层,过渡层的作用是用来控制模型复杂度。

至于训练方法,采用的是近端策略优化算法,可以被用于连续空间任务和离散空间任务。PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了Policy Gradient算法中步长难以确定的问题。

在训练过程中,采用从零开始的“自我”训练方法,没有使用任何人类数据。此外,研究者还发现,损失函数的方法比较大,这可能导致不同玩家的得分差距非常大。所以,研究者采用了不同的强化奖励方式,稳定了训练过程。

2

比赛介绍

比赛官网:https://www.botzone.org.cn/static/gamecontest2020a_cn.html

此比赛借助IJCAI平台举办,要求参赛者在在线人工智能平台Botzone上开发一个能够与其他人工智能和人类玩家比赛的麻将人工智能。比赛中采用《中国麻将竞赛规则》,即俗称的国标麻将。此外,组委会还为国标麻将初学者提供了样例程序和比赛使用的国标麻将裁判程序,方便参赛者学习国标麻将的规则并调试你的程序。最终比赛的胜者经由两轮正式的竞赛角逐诞生。

比赛配备了强大的评审团队,不仅包括北京大学的李文新,邓小铁等等AI领域的专家,还有麻将圈的知名人士,国际麻将联盟秘书长:李文龙。

以上是前十六强队伍开发人力投入情况,冠军方案是由两人合力完成,共奋战了21天,采用了100个CPU以及两个GPU。算力投入最多的队伍是“清澄高校”,团队以快手公司参赛,使用了180个CPU以及32个 GPU,大力出奇迹!

微智娱的 Test 队伍排名第十三,奋战了60天,只用了4个 CPU 和2个GPU训练神经网络,算法效率极其高。 所用人力最少的队伍是清华大学的“点个大的”团队,一人参赛,开发三天,高手榜排名第十。 值得一提的是,“点个大的”并未使用强化学习算法,而是使用的 “搜索+剪枝” 。

之前 AI 在围棋和德州扑克上的成功很大程度依赖于搜索算法,因为搜索可以最大程度地发挥计算机的计算优势。但是因为巨大的信息集平均大小带来的环境不确定性,传统的搜索算法在桥牌和麻将面前很难发挥同样的功效。

通过这次的比赛,我们也可以看出,麻将AI的研究为游戏AI在开辟了新的方向,并进行了极大地拓展。

我们所生活的世界也正是一个非完美信息的决策过程,麻将游戏中复杂的推理策略和带有随机性的博弈过程,比完美信息游戏更加贴近人类复杂的真实生活。对非完美信息游戏的研究,将有助于我们开发出适用于真实生活场景的更加“智能”的AI系统。

AI科技评论为大家带来10本 《现代自然语言生成》 正版作者 亲笔签名版 新书。

请在1月17日AI科技评论头条文章《》( 注意不是本文 )留言区畅所欲言,谈一谈你对本书的看法和期待(必须要和本书主题相关)。

fAI 科技评论将会在留言区选出10名读者,每人送出 《现代自然语言生成》 亲笔签名版一本 。

活动规则:

1. 在1月17日AI科技评论头条文章( 注意不是本文 )留言,留言点赞最高的前10位读者将获得赠书。获得赠书的读者请联系 AI 科技评论客服(aitechreview)。

2. 留言内容会有筛选,必须要和本书主题相关,例如“选我上去”等内容将不会被筛选,亦不会中奖。

3. 本活动时间为2021年1月17日 - 2021年1月24日(23:00),活动推送内仅允许中奖一次。

由于微信公众号试行乱序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道, 请将“AI科技评论”设为 星标账号 ,以及常点文末右下角的“ 在看 ”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
亨德森安菲尔德告别仪式引发小蜜蜂球迷不满,被批“真丢人”

亨德森安菲尔德告别仪式引发小蜜蜂球迷不满,被批“真丢人”

懂球帝
2026-05-25 20:28:21
职业运动员究竟有多厉害?网友:在天赋面前,努力一文不值!

职业运动员究竟有多厉害?网友:在天赋面前,努力一文不值!

另子维爱读史
2026-05-21 08:03:05
5月25日俄乌最新:俄罗斯的内部危机

5月25日俄乌最新:俄罗斯的内部危机

西楼饮月
2026-05-25 20:06:14
中村俊辅首进日本教练组,球员欢迎

中村俊辅首进日本教练组,球员欢迎

懂球帝
2026-05-25 17:38:14
珠江口已经建了很多大桥,但却还远远不够

珠江口已经建了很多大桥,但却还远远不够

吃货的分享
2026-05-25 00:15:19
法网26日凌晨战报:中国金花鏖战三小时后1-2遭逆转出局

法网26日凌晨战报:中国金花鏖战三小时后1-2遭逆转出局

大汉体育解说
2026-05-26 05:07:26
上海老教授临终捐空房产,养子整理遗物找到结婚证,翻开后瘫坐在地

上海老教授临终捐空房产,养子整理遗物找到结婚证,翻开后瘫坐在地

红豆讲堂
2025-05-09 09:55:16
日本化工巨头押注先进封装新材料

日本化工巨头押注先进封装新材料

野生运营
2026-05-26 03:34:57
2000万投资,被一棵树破功?

2000万投资,被一棵树破功?

中国新闻周刊
2026-05-25 07:42:52
英媒:麦克托米奈世界杯出线倒钩被印上苏格兰20英镑纸币

英媒:麦克托米奈世界杯出线倒钩被印上苏格兰20英镑纸币

懂球帝
2026-05-25 18:42:09
中型SUV也扛不住了!新一轮“大降价”来袭,最高降51%,合资跳水

中型SUV也扛不住了!新一轮“大降价”来袭,最高降51%,合资跳水

华庭讲美食
2026-05-26 02:25:26
纪实:浙江女教师突然失踪6年,13岁儿子凭借一个梦找到母亲

纪实:浙江女教师突然失踪6年,13岁儿子凭借一个梦找到母亲

红豆讲堂
2024-10-25 09:45:59
骑士主帅G4赛前言论引发热议,一番另类观点搅动联盟舆论

骑士主帅G4赛前言论引发热议,一番另类观点搅动联盟舆论

夜白侃球
2026-05-25 19:13:01
大家还记得聂海胜吗?就是那个三次上太空、57岁还上天的航天英雄

大家还记得聂海胜吗?就是那个三次上太空、57岁还上天的航天英雄

Thurman在昆明
2026-05-26 01:36:11
邮报盘点切尔西大甩卖14人名单:德拉普、加纳乔、库库在列

邮报盘点切尔西大甩卖14人名单:德拉普、加纳乔、库库在列

懂球帝
2026-05-26 02:47:17
王励勤不忍了!出手给樊振东出了口"恶气",印证了张继科的那句话

王励勤不忍了!出手给樊振东出了口"恶气",印证了张继科的那句话

荣亭小吏
2026-03-06 04:08:37
洛塞尔索:世界杯是最高舞台;我希望自己能入选阿根廷大名单

洛塞尔索:世界杯是最高舞台;我希望自己能入选阿根廷大名单

懂球帝
2026-05-26 00:20:11
身高仅1米6!比NBA平均矮42公分,他凭什么在巨人联盟打14年?

身高仅1米6!比NBA平均矮42公分,他凭什么在巨人联盟打14年?

青梅侃史啊
2026-05-25 22:11:43
中超又一个扎哈维:新外援近6场独造10球,球队却丢13球!

中超又一个扎哈维:新外援近6场独造10球,球队却丢13球!

邱泽云
2026-05-25 23:57:15
中东政坛惊天大反转!那个骂美国最凶的伊朗前总统,居 然是卧底

中东政坛惊天大反转!那个骂美国最凶的伊朗前总统,居 然是卧底

爱吃醋的猫咪
2026-05-25 21:59:22
2026-05-26 09:24:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7302文章数 20754关注度
往期回顾 全部

科技要闻

今年秋季,麒麟芯片将首次落地"逻辑折叠"

头条要闻

燃油车齐降价捷豹路虎打对折 网友:感觉燃油车又香了

头条要闻

燃油车齐降价捷豹路虎打对折 网友:感觉燃油车又香了

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

走近何庭波

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

手机
游戏
家居
亲子
房产

手机要闻

OPPO Reno16 Pro怦然星动图赏:3D悬浮星球,辨识度拉满

魔兽世界:时光服提升难度谁受益?只管输出DPS,TN却在疯狂抗压

家居要闻

生与命相依 旧公寓改造

亲子要闻

央视新闻探访君乐宝奶粉产业链

房产要闻

工抵房骗局!134套房款入私账!海南这个盘,坑惨买房人!

无障碍浏览 进入关怀版