这次AI突破的是麻将

来源 :科海故事博览·中旬刊 | 被引量 : 0次 | 上传用户:tuoba888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

  围棋AlphaGo点燃的AI之火渐渐降温之际,微软发布了他们在麻将游戏中取得的重大突破:麻将AI “Suphx”在国际知名专业麻将平台“天凤”上荣升十段。“十段”是什么概念呢?天凤平台上,全球范围内现役十段的人类选手仅十几位。Suphx取得“十段”的成绩,大致可相当于围棋中AlphaGo挑戰胜了李世石。这是一个不凡的成绩。从AI这门学科诞生之日起,游戏AI始终与AI研究进展相生相伴,跳棋、双陆棋、国际象棋和围棋都曾先后推动了AI的发展。相比以上这几种棋类游戏,麻将却是规则复杂、胜负判定烦琐、信息非完全公开的,且更重要的是在公众认知中麻将更多地有“运气”和“凭直觉”的成分。因此麻将AI若能取得超越人类的水平,可以期待它将带来新的一波热潮。
  Suphx的晋级之路
  “天凤”是日本的一个在线麻将竞技平台,创立于2006年。因其完善的竞技规则及专业的段位体系,很快便成为业界知名的高水平专业麻将平台,受到职业麻将界的广泛承认。天凤的评价制度,采用Rating制和段位制并行的制度。刚刚注册时等级从“新人”开始,点数(pt)会根据游戏的情况增减,并最终决定雀士的升段(升级)和降段(降级)。玩家的段位越高,在比赛中排位第四受到的点数惩罚也越多,点数扣除到一定程度会导致降段。按照这种规则,如果雀士的实力水平一定的话,自己的等级也会相对地稳定在某一个段位上。根据段位,游戏者可以使用的桌也会发生变化。天凤平台为高水平麻将玩家提供了两种竞技房间:“特上房”对四段以上所有玩家免费开放,允许AI参与游戏,目前所有玩家在此房间的最高段位是十段;“凤凰房”仅对七段以上的人类付费玩家开放,目前不允许AI参与游戏,在该房间能够达到的最高段位是十一段,称为“天凤位”。自天凤平台在2006年推出以来,全球范围内达到四人麻将(四麻)天凤位的雀士也不过13人,曾经达到过十段的玩家约有180位,而现役十段的人类玩家仅有十几位。微软亚洲研究院开发的麻将AI Suphx在2019年3月份开始登录天凤平台,经过近三个多月、与人类玩家展开了5000余场四麻对局后,6月份Suphx成功晋级天凤十段,也是首个晋级十段的AI系统。在5000余场对局中,Suphx的稳定段位超过了8.7。这样的稳定段位是一个极高的数字。据统计,天凤平台的所有顶级人类玩家在取得十段后,在“特上房”共参加过近万场比赛,整体稳定段位为7.4。与所有取得过天凤十段的顶级人类玩家相比,Suphx在特上房的稳定水平要领先约1.3个段位。此前,天凤平台还活跃着另外两个麻将AI系统,由东京大学在2015年开发的“爆打”和Dwango公司于2018年开发的基于深度学习模型的“NAGA25”,二者的稳定段位均在6.5左右。事实上,在晋级十段之前,Suphx很长一段时间稳定在九段,其独特的打牌风格在麻将领域刮起了不小的“AI风”,很多麻友都尝试从中学习新的打牌方式,并且在中国很多麻友亲切地称她为“苏菲老师”“苏菲姐姐”。此外,麻将领域神一级存在、被天凤平台冠为“God of mahjong”的朝仓康心也曾表示:“我看了Suphx的比赛,我感觉它好像比我更强大!”
  麻将AI难在哪里
  为什么说麻将AI战胜人类是游戏AI的又一次重大突破呢?因为麻将AI相比于棋类游戏更难。一般来说,我们可以根据信息的暴露程度将游戏分为两大类:完美信息游戏和非完美信息游戏。如果所有的参与者,在游戏的任何阶段都可以访问所有关于游戏(包括对手)状态及其可能延续的信息,那么称这类游戏为完美信息游戏,否则称为非完美信息游戏。围棋、象棋等棋类游戏,对局双方可以看到局面的所有信息,属于完美信息游戏;而扑克、桥牌、麻将等游戏,虽然每个参与者都能看到对手打过的牌,但并不知道对手的手牌和游戏的底牌,也就是说各个对局者所掌握的信息是不对称的,因此属于不完美信息游戏。完美信息游戏和非完美信息游戏难度的衡量指标通常是有区别的。对于完美信息游戏,通常游戏的复杂度就决定了难度,我们可以用状态空间复杂度和游戏树复杂度对其难度进行衡量:对于传统的完美信息棋类游戏中,围棋不管从状态空间复杂度,还是游戏树复杂度上都远远领先其他棋类游戏。2017年,AlphaZero 利用MCTS和深度强化学习,成功解决了包括围棋在内的多个完美信息游戏。我们也有理由相信,只要算力足够,对于更加复杂的棋类游戏,我们都能通过已有的方法得到解决。而另一方面,对于非完美信息游戏,隐藏信息对于游戏的难度影响很大。例如麻将,参与者只能看到他手中的13张牌的信息,对于另外3家的手牌以及剩余的底牌则完全不知。由于这种信息的不完全、非对称性,对于参与者来说许多不同的游戏状态看起来是无法区分的。显然,对于非完美信息游戏而言,合理的游戏策略应该建立在信息集而不是游戏状态之上。相应地,当我们衡量非完美信息游戏的难度的时候,也应该依据信息集的数目而不是游戏状态空间的大小。信息集的数目通常小于状态空间的数目。对于完美信息游戏,由于所有信息都是已知的,每个信息集只包含一个游戏状态,因此它的信息集数目与状态空间数目是相等的。除了信息集的数目,还有一个重要的指标:信息集的平均大小,即在信息集中平均有多少不可区分的游戏状态。按照这两个标准来衡量非完美信息游戏的难度:2017年卡耐基梅隆大学和阿尔伯特大学相继发布了Libratus和DeepStack,在两人无限注德州扑克上成功击败了世界顶级人类玩家。目前的AI在围棋和德州扑克上的成功很大程度上依赖于搜索算法,因为搜索可以最大程度地发挥计算机的计算优势。但是因为巨大的信息集平均大小带来的环境不确定性,传统的搜索算法在桥牌和麻将面前很难发挥同样的功效。如果把过去的游戏AI的研究看作“一维延展”(信息集数目)的话,那么德州扑克则是向二维方向(信息集平均大小)的初始尝试。但整个二维平面还有更广阔的空间需要探索,这需要我们发明全新的方法论,同时这也将成为游戏AI的一个主要研究方向。   开拓游戏AI二次元
  具体到麻将这个游戏,一方面,136张麻将牌的排列组合可能性非常多,再加上打牌过程中4位玩家出牌的顺序并不是固定的(例如碰杠等),导致游戏树不仅不规则而且还是动态变化的。这些特点使得麻将AI很难使用AlphaGo那样的蒙特卡洛树搜索算法。其次是非完美信息问题。麻将中每个玩家除了手中的13张牌和已经打出的牌外,其他玩家手中的牌和剩余的底牌都是未知的,由于隐藏信息过多导致游戏树的宽度非常大,树搜索算法基本不可行。另外还需要注意的就是麻将本身的奖励机制,毕竟这才是评判胜负的标准。对于日本麻将而言,一轮游戏共包含8局,最后根据8局得分总和进行排名,来形成最终影响段位的点数奖惩。因此有时麻将高手会策略性输牌,以保证自己在最终结算时获得最大的点数奖励。这为构建高超的麻将AI策略带来了额外的挑战,AI需要审时度势,把握进攻与防守的时机。微软亚洲研究院的几位研究员针对麻将的这些特点,将整个训练过程分为3个阶段。首先是“初始化”阶段,本质上就是用专家数据做监督学习,得到一个初始模型。随后在这个初始模型基础上用自我博弈的方式进行强化学习。在这个阶段,为了克服非完美信息博弈的问题,研究者在训练阶段利用不可见的一些隐藏信息来引导AI模型的训练方向,让它的学习路径更加清晰、更加接近完美信息意义下的最优路径,从而倒逼AI模型更加深入地理解可见信息,从中找到有效的决策依据。他们称之为“先知教练”技术。第三个阶段则是在线比赛,通过不断参与到与人类玩家的对局中,从而不断得到自我更新和提高。自2019年3月進入天凤平台以来,Suphx在与人类玩家的对局中学得非常快。目前,在平衡攻击和防御方面,Suphx表现出了比许多顶尖人类玩家更明智的策略,能够战略性地完成短期损失与长期收益之间的权衡,并根据已有的模糊信息进行快速决策。
  尽管目前来看Suphx在天凤平台上只达到十段水平,距离“天凤位”还有一定距离,但我们可以相信一旦天凤平台开放权限,Suphx达到并超越“天凤位”的诸位玩家将指日可待,这也将成为继AlphaGo之后再次挑战人类认知的历史事件。不过它的意义并不仅在于“震惊”,更在于对研究和应用方向的开拓。正如前面提到的,麻将AI的研究为游戏AI在“第二维度”开辟了新的方向,并进行了极大地拓展。我们可以期待未来在“第二维度”上将会有更多的研究出现。甚至为了更进一步拓展研究范围,可能会有一些研究人员发明出具有更大信息集数目和更大信息集平均大小的新游戏来。这不是不可能。此外,我们所生活的世界也正是一个非完美信息的决策过程,麻将游戏中复杂的推理策略和带有随机性的博弈过程比完美信息游戏更加贴近人类复杂的真实生活。我们同样可以期待,对非完美信息游戏的研究,将有助于我们开发出适用于真实生活场景的更加“智能”的AI系统。当然,最直接的意义还在于,Suphx“苏菲老师”在牌风上已经自成一派,创造了许多新的策略和打法,这将直接改变麻将社区的生态。许多麻将爱好者已经开始学习Suphx的打法来提升和丰富自己的麻将技巧,这其中包括天凤位的大神,他是世界上第15位三人麻将天凤位获得者,也是第一位在四人麻将和三人麻将中均取得天凤位的顶级玩家。他表示:“我已经看了300多场Suphx的比赛,我甚至不再观看人类玩家的比赛了。我从Suphx身上学到很多新技术,它们对于我的三人麻将打法有着非常大的启发意义。”期待“苏菲老师”晋升天凤位!
其他文献
摘 要 近年来我国经济一直在持续发展,在原本人口基数就很大的情况下,现有的人口数量仍然在持续上涨,这就导致我国当前面临着比较严峻的土地资源匮乏问题,特别是可以有效支配使用的土地资源越来越少。不仅如此,由于人们的生活条件越来越好,致使土地资源在建筑基础设施上的比例日益增加,这使得本就严重的土地资源匮乏问题雪上加霜。面对这种情况,必须要通过先进的科学技术,从而对土地资源的使用进行科学的规划与管理,以此
摘 要 水利工程是关系到国计民生的基础性工程,但是水利工程施工一般都是在野外,环境复杂,施工的难度也较大,对于技术方面、工艺方面有着非常严格的要求,这对施工现场的安全管理提出了更高的要求。安全管理是水利工程施工现场管理的基础内容,是预防各种安全事故以及消除安全隐患的重要举措。因此,在水利工程施工现场建立起完善的安全管理体系,有效保障水利工程施工的顺利实施具有非常重要的意义。  关键词 水利 施工
摘 要 本文从人体的感知出发,论述了建筑比例与尺度的重要性;探究了建筑空间的比例、尺度与人体尺度、感知之间的关系;分析了构造层面的尺寸与人体安全及适用性上的关联;并最终思考了在建筑设计中,如何合理地利用比例与尺度,以实现设计的“以人为本”。客观物体无论呈现出哪种形状,必然存在着长、宽、高等三个方向的度量,比例就是研究三方向度量之间关系的问题;而尺度,是和比例相联系的,是研究建筑物的整体或局部给人感
陈先哲在2020年2月11日《光明日报》撰文指出:在新冠肺炎爆发时期,确诊病人的数据不断攀升,死亡病例也不断增加。人们开始惶恐不安,尤其是亲历身边人感染甚至死亡者,常常不知所措且留下长期的心理阴影。当每个人都直面危机感之时,才会深刻感受到生命教育的可贵。  好的生命教育,还要让人学会敬畏自然。因为生命不分性别,不分国界,不分物种。人类常自以为是地认为是万物之主宰,但當人不尊重野生动物生命的时候,自
摘 要 本文首先将专利申请数作为被解释变量,将政府技术投入资金与企业R
近日,有网友在新浪微博等媒体反映称,博兴县某小学一班级家委会以班费之名收取费用,用于教室墙壁翻新。学校发现此事后,立即要求涉事班级家委会对收取的资金全部退还,由此产生的费用由学校全部负担。同时,学校举一反三,对其他班级进行排查,确保不发生类似事情。(2019年10月5日新浪网)  如今,越来越多的人都认识到,教育不仅仅是学校、老师的事,更需要家庭、社会来配合工作,形成家校共育的教育合力。而学校或班
刚刚跑出考场的高考考生在大庭广众之下向班主任下跪,这样的场景确实挺刺眼,让不少人不能接受。但从法律和个人权利角度说,考生以向班主任下跪的方式表达感恩之情,对这种跪谢班主任的选择和表达方式,作为普通人的我们可以不认同,但应当予以尊重,不应冷嘲热讽。  对个人不同的表达感恩的方式方法和选择,只要没有违反法律法规和社会公德,那么就应该予以尊重,无权说三道四、指手画脚。从法律层面讲,法律廢除跪拜礼,只是意
摘 要 城市公共安全是国家安全的重要组成部分,随着社会经济的进步,重视城市公共安全的管理是必然之计,但是目前我国处于公共管理条件较弱,公共安全信息差距大,预警机制不够完善的情况,传统的公共管理方式很难满足现阶段的城市发展需求。本文通过研究我国公共管理的现状、提出有效的新型解决方案、规避城市安全中可能存在的风险,从而进行构建城市公共安全应急管理的框架,探究适用于我国公共安全应急管理的方法,保障人民群
一、实施背景  美术课程标准指出课程资源开发和利用是美术课程中一个有机组成部分,我们要尽可能运用自然环境资源(如自然景观、自然材料等)以及校园和社会生活中的资源(如活动、事件和环境等)进行美术教学。我市既具有浓郁的历史文化底蕴,丰厚的乡土美术文化,又拥有在历史长河的淘琢下沉淀的传统文化的元素,我们的学生要认识到这些乡土美术的价值及其在现代社会中所具有的意义,从乡土美术与学校美术特色课程的有效结合进
摘 要 绩效辅导作为企业实现战略目标的有力抓手,在绩效管理过程中发挥着至关重要的作用,本文将通过绩效辅导的内容、绩效辅导的时机、绩效辅导的方式和绩效辅导的沟通技巧等方面,对企业绩效辅导体系进行建设研究,并将结合A企业绩效辅导体系建设研究在人力资源管理六大模块中的实际运用情况,以及A企业开展绩效辅导的有效做法和真实案例,来阐述绩效辅导体系建设的重要意义。  关键词 绩效辅导 体系建设 研究  中图分