会玩德州扑克的AI,为什么比AlphaGo更厉害?

来源 :新民周刊 | 被引量 : 0次 | 上传用户:wh820228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  没有追随深度学习潮流的“冷扑大师”,或许在现实生活中拥有更广阔的用武之地:金融交易、网络安全、商业拍卖、政治谈判……因为这些情景都是充满了各种博弈的“非完美信息”游戏。
  提到人机大战,普罗大众比较熟悉的是战胜人类围棋的AI“阿尔法狗”(AlphaGo)。但在人工智能(AI)界,业内人士更关注的是另一项人机大战——德州扑克。因为在这个领域,AI系统没有海量的棋谱可以深度学习,比赛双方掌握的信息也不对等,这就需要AI系统利用博弈论等其他理论来进行决策。
  2017年1月,美国宾州匹兹堡的大河赌场(Rivers Casino)举行了一场德州扑克的“人机大战”——连续20个比赛日中,一个名为“冷扑大师”(Libratus)的AI在共计12万手的一对一无限注德扑比赛中击败了四名顶尖人类高手,共计领先人类团队176万美元筹码。令人咋舌的是,这是“冷扑大师”第一次和人类交手。
  3个月后,“冷扑大师”又在中国海南战胜了6位顶尖华人扑克选手。此次比赛发起人、人工智能工程院院长李开复赛后如此评价道:“如果AlphaGo是超级IQ天才,那么‘冷扑大师’就是超级EQ天才。”
  7月下旬,“冷扑大师”的开发者、美国卡内基梅隆大学(CMU)计算机教授托马斯·桑德霍姆(Tuomas Sandholm)再次来到中国,在“2017钛媒体-杉数科技AI大师圆桌会”现场与他的学生、清华大学计算经济学研究室主任、博士生导师唐平中,上海财经大学教授、国际奥数金牌、杉数科技科学家何斯迈,上海财经大学交叉科学研究院院长、杉数科技首席科学家葛冬冬讨论了商业实际场景中真正需要的AI,给大家分享了“AI赌神”的获胜秘诀。他表示:没有追随深度学习潮流的“冷扑大师”,或许在现实生活中拥有更广阔的用武之地:金融交易、网络安全、商业拍卖、政治谈判……因为这些情景都是充满了各种博弈的“非完美信息游戏”(imperfect-info games)。
  为什么要让AI玩德扑?
  “德扑AI之父”桑德霍姆用带有芬兰口音的英语说,之前著名的人机大战,无论是IBM的国际象棋AI“深蓝”、还是谷歌的围棋AI“阿尔法狗”,比赛双方获得的信息都是一样的,这就是“完美信息游戏”。但现实生活中这种信息完全对等的情况很少发生,而更多是“非完美信息游戏”,德州扑克就是这样一例。也就是说,即便在一对一的情况下,比赛双方获得的信息是不一样的、或者说只是部分的——双方都不知道五张公共牌会开出怎样的结果,也不知道对手猜测自己握有怎样的手牌。这样的游戏就不存在单一的最优玩法。
  对于AI团队而言,研究“非完美信息游戏”不但更富挑战性,也更有实际运用价值。而“冷扑大师”打开了AI解决随机事件和隐藏信息的大门。
  根据《量子位》的报道,“德扑AI”的最早研发可以追溯到2014年8月,当时刚刚完成硕士学业的诺阿姆·布朗(Noam Brown)继续留在CMU攻读计算机科学的博士学位。当年,他就和导师桑德霍姆教授一起开发出德扑AI:Tartanian7以及后续版本Baby Tartanian8,并且连续赢得电脑扑克大赛(电脑VS电脑)的冠军。
  师生俩乘胜追击,开始研究德扑人机大战。两人创造了Claudico,当时的桑德霍姆以为Claudico有五成胜算。谁知,在2015年4月美国匹兹堡的大河赌场,Claudico在两周时间内和四位人类顶级玩家交锋8万手,累计输掉73.2万美元的筹码。之所以选择这个赌场,因为卡内基梅隆大学也在匹兹堡。
  2017年1月11日,全新的“冷扑大师”(Libratus)卷土重来。还是四位人类对手,不过时长变为20天,累积交锋12万手。这次德扑AI没给人类玩家机会,一路以碾压的态势完胜。
  “冷扑大师”的获胜秘籍是什么?
  以往AI处理“不完美信息游戏”采用一种缩略的方法,例如将对手下注249美元近似为200美元进行简化处理,采用这一模式的Claudico在人类面前不堪一击。而“冷扑大师”就不同了,它会对每一手牌进行单独的处理,根据不同的牌面制订出不同的战略。对它而言,249美元就是249美元,它不會像以往的AI那样尝试聚类,而是马上实时计算,得出胜算最大的策略。
  这种算法最大的特点,是开发者可以获得一定程度的“确定性”。而“确定性”正是时下大热的深度学习最缺乏的。有评论指出,深度学习有两大局限性:一方面,深度学习的本质是机器通过分析海量数据习得一些模式,但并不是所有领域都能采集到海量数据。以自动驾驶为例,显然通过积累海量事故经验来习得避免事故发生是不现实的。另一方面,深度学习是一个知其然而不知其所以然的“黑匣子”,这在许多重大安全事件上并不能令人放心。自动驾驶的事故问责问题就是一例。
  值得注意的是,“冷扑大师”在今年1月人机大战之前没有研究过人类如何打德州扑克,也没有和人类职业玩家有过交手。在投入实战之前,它和自己对战了几百万手牌,其中有不少是带有特定目的的残局,真正机器和机器之间的交手,大约是几十万手。
  更有意思的是,“诈唬”(bluff)这种看似与心理有关的人类技能,“冷扑大师”通过算法也“自学成才”。诈唬是德扑的一种经典策略——当你手中的牌面不够大,可以通过虚张声势加注吓退对手,逼对手弃牌。而计算机会根据选手过去的表现来判断对手牌面大的概率有多少,从而做出当下的最佳策略。
  在桑德霍姆看来,“冷扑大师”的这套AI系统有十分广阔应用空间:从战略定价到金融领域、从谈判到网络安全、从政治竞选到拍卖、从医疗资源规划到军事领域……现在唯一的问题是,运行“冷扑大师”,需要匹兹堡超算中心的Bridges超级计算机。不过桑德姆斯研究团队乐观表示,算法还可以被优化,再加上计算硬件的提升,可能5年之内就能一部手机搞定一切了。
其他文献
许多幼教专家在基层第一线呆的时间不够长,盲目学习国外,闭门造车出来一套理论,有可能并不适合我们的孩子,而且专家和专家之间的意见有时候完全相左,我们这些基层教师根本不知道该听谁的。  近期关于幼儿园的话题一再挑动着人们的神经。许多人都说,幼教之难,在于幼师素质不高。坊间传言说,现在的幼儿园老师,不再是以前白衣飘飘带着孩子快乐游戏的天使,反而要么是一些读书不好的小太妹,高中毕业混进学堂挣饭吃的南郭先生
周末去了江苏的几个地方,一路上好几次都听到有关常州的议论,中心话题就是那片影响了外国语学校学生安全的有毒土地。那片土地不仅成了江苏议论的焦点,并且成为了全国关注的热点。  也就是从那一刻起,许多人才知道,那些滋养生命的泥土,有时候居然会有着那么巨大的杀伤力。化学污染的土地,一个被忽视了那么久的问题,就这么突兀地出现在人们面前。  就在写这篇文章的时候,常州市人民政府新闻办公室通过官方微博,发布了常
琴睡我的上铺,她从农村考来。刚进校时去银行存带来的生活费,二十多年前的银行是发一个圆形的金属号牌给客户,等办好了再叫号换存单。结果琴拿着这块沉甸甸的号牌就跑回宿舍了。就这么过了大半学期,苦逼的银行职员不知通过什么手段找到系里,求她把号牌拿出来换存折。  刚进大学的琴留着高三女生都留的那种雌雄莫辨的短发,一副懵懂看身边新奇事物的神情。第一个月进集体澡堂的装束是短裤进、短裤出,毛巾永远捂在胸前擦拭。一
4月23日,基金从业人员资格全国统一考试在各地举行,57.4万人参加。由于羽泉组合之一的胡海泉、近日宣布息影的任泉、内地一线演员黄晓明和李冰冰与各路私募大佬云集考场,成为“史上最熱闹的一届考试”。
上海这座城市的发展日新月异,而聚通在自己的发展历程中,也是一步一台阶不断超越自己,走在上海装饰界的前端。  回顾望今 开工大吉  从1998年开始,聚通至今已是第19个年头了,在领导高层前往普陀山敬香进行新年祈福的活动后,就意味着新的一年正式开工了。在过去一年中,聚通也发生了三件很重要的事情:  第一件事,2015年8月集团举办了“聚力同舟通达梦想”的千人海外邮轮旅游的团建活动,这也是一次展现聚通
2012年春夏之间,上海三家出版社同时出版了作家薛忆沩的五部作品,这成为了当年一个重要文化事件。  在那五部作品中,薛忆沩认为最难出版而结果却出版得最为顺利的,就是由华东师大出版社出版的《与马可·波罗同行——读〈看不见的城市〉》:“我听说王焰社长仅仅翻读了三五页原稿就做出了出版这部作品的决定。”这决定不仅改变了他个人的命运,也为当代中国文学带来了独特的惊喜和持久的激情。  与出版社结缘于非凡的鉴赏
本希望通过网约车的生意,在维持家庭生活的基础上有一些积蓄,让我在退休后继续做一些自己想做的事。虽然有风险,但是我决定再留守一两个月,实在不行只能回到出租车,至少还有一些保障。  尽管各界争议不断,业内普遍认为各地网约车细则恐怕都难以再进行大范围的调整。而拥有上海户籍,并从事专车业务近一年的张晋,对于新政和网约车现状提出了自己的看法。    付出与收入失衡  我本科学的是工程机械专业,毕业后被分配到
80年前的八一三淞沪会战,对中国军队来说,是一场不得不为的战斗。“七七事变”后,抗战第二战场在上海开辟。这是中日双方在中国全面抗战开始后的第一场大型会战,也是整个中日战争中进行的规模最大、战斗最为惨烈的一场战役。中日双方动员兵力超过100万人,至1937年11月12日,中国军队全线撤离上海战场止,战役历时三个月。  在这场会战中,日军投入8个师团和2个旅团近30万人,最终宣布死伤4万余人;中国军队
在刚刚迈入2016年的当口,一场由沙特处决什叶派教士引起的断绝外交风波,将我们的视线引回了这对中东老冤家身上。  不知从何时开始,中东的局势就成为了永远不会被冷落的话题——从上个世纪的5次中东战争,到如今纷纷扰扰的巴以冲突;从伊拉克和伊朗之间的战场交锋,再到后来的海湾战争、伊拉克战争;从拉登治下的“基地”组织,再到现在肆虐于叙利亚和伊拉克的IS。  诸多战争杀伐背后,沙特阿拉伯与伊朗——这对分别代
这种接连“退群”,在一些精英看来,美国是在拱手让出国际主导权。  美国总统特朗普似乎“退群”退上了瘾,他以超强的执行力,退出了一个又一个国际机构,让美国人目瞪口呆,让世界也惊诧不已。以至于温文尔雅的美国国务卿蒂勒森,有一次都忍不住犯上痛骂特朗普是一个“白痴”,而且他还拒绝公开否认。  特朗普式的“退群”,无一例外都相当干净利落,从不拖泥带水。比如,他一上台,就不顾日本、新加坡等国的苦苦哀求,义无反