基于蒙特卡洛树搜索的“斗地主”研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:newbitcom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
国内流行的三人棋牌类游戏“斗地主”是典型的不完备信息博弈,既有两个农民角色与地主角色之间的对抗,也有两个农民角色之间的合作。随着人工智能技术在大规模棋牌类游戏中取得的重要进展,例如Alpha Go和Libratus分别在围棋和一对一无限注德州扑克游戏上取得了超越当前人类职业玩家的能力,“斗地主”棋牌类游戏也引起了人工智能研究人员的广泛兴趣。蒙特卡洛树搜索通过抽样方法解决大规模搜索问题近似解,是Alpha Go Zero的重要组成部分。本文采用蒙特卡洛树搜索结合“斗地主”博弈特点及卷积神经网络技术,探索研究“斗地主”博弈的出牌策略。具体工作如下:1.提出基于手牌拆分的蒙特卡洛树搜索算法(MCTSHS)。统计表明,按照博弈规则将手牌拆分成不超过最小拆分数加3的牌集时,人类玩家在实际博弈中选择的牌型以超过99%的概率包含于该牌集。因此,在此基础上提出了手牌拆分算法对博弈树进行剪枝,以提高搜索效率。实验结果表明,MCTSHS算法在不依赖人类数据的情况下,能做出较好的出牌决策。2.提出结合卷积神经网络的蒙特卡洛树搜索算法(MCM)。首先,针对MCTSHS存在决策时间过长且不能充分利用已学习策略的问题,提出使用卷积神经网络学习MCTSHS的历史决策数据,实现状态和可能的决策到该决策收益的映射,再选择收益最大的决策作为实际决策,进而大幅缩减决策时间;其次,针对卷积神经网络学习中存在的误差以及因实验预设条件限制而导致MCTSHS算法搜索决策结果不佳的问题,提出使用蒙特卡洛树搜索算法改善卷积神经网络的输出结果,并根据改善后的结果做出最终决策。实验结果表明,MCM算法在胜率上明显优于目前的主流“斗地主”策略。
其他文献
在全球经济一体化、“走出去”国家战略以及“一带一路”倡议的推动下,中国的电建企业与日韩欧美等国际化企业在国际市场同台竞争和博弈日益加剧,电建总承包企业通过与分包商建立长期稳定的合作关系,来不断优化施工(C)与设计(E)、采购(P)环节衔接,提升项目履约、管理协调、资源整合等综合实力,持续打造电建企业在国际电站EPC项目中的核心竞争力。因此,科学的选择优质分包商,已成为电站总承包项目顺利实施的重要环
蛙人水声语音通信系统是水下蛙人单兵作战和蛙人编队作业的重要装备。在众多调制方法中,单边带语音通信体制具有稳定性高、较好的保留说话者音色等优点,但是不具备多途抑制能力且易受噪声影响。另外,蛙人编队作业时,来自不同蛙人的语音在接收端混叠输出造成互相干扰也是一个亟待解决的问题。本文在水下蛙人单兵(编队)单边带语音通信体制的应用背景下,研究基于复倒谱特征滤波器和最小相位分解的盲多途抑制方法以及基于Fast
随着企业的发展,激励是最大程度发挥员工积极性、对员工个人与企业间关系展开协调的重要性手段,故实施以人为本的管理的关键就是要建立起一套适合企业需求的激励机制。因此,本文以东阿县移动公司为例,对该公司人员激励机制进行研究。本文首先介绍了本文的研究背景和意义,通过国内外文献综述和评价总结出要解决的内容和问题,阐述研究方法和创新之处。其次,阐述期望理论、公平理论和综合激励模型等激励模型相关理论。在上述理论
随着现代信息技术的发展,人们的业余生活越来越丰富。越来越多的在线视频网站的兴起,使得人们不再局限于在电视机上观看影视作品,而是可以随时随地地在线观看自己喜欢的作品。这些在线视频网站给观众提供了一种交互式的观影体验,观影者可以在观看视频的同时发表和交流自己的感受。在这些影视评论当中隐含着许多有价值的情感信息,如何有效地挖掘和分析这些情感信息有着重要的研究意义。其不仅能够为观影者提供信息参考,同时也可
黑碳气溶胶作为气溶胶中主要的吸光成分,可以直接吸收太阳短波辐射,加热大气,根据IPCC2013年报告指出,黑碳是影响气候变暖的第三位因素,黑碳在大气中会不断老化,一般分为两个阶段,第一阶段是由链状结构紧密成球状,第二阶段会在球状的外表面包裹上有机和无机外壳,产生透镜效应,增强黑碳的吸光性,对气候变化和环境产生重大影响。但目前对黑碳辐射贡献的估算仍存在较大的不确定性,一个重要的原因是因为黑碳颗粒老化
在当前竞争日益激烈的市场行情下,企业要想获得竞争优势,实现基业长青,关键在于提高组织和员工的绩效,充分发掘人员的潜力和效能。而这首先是建立在科学的绩效指标体系之上的。近几年,由于宏观经济疲软、房地产大量透支居民收入、汽车越来越普及、城市限牌限行等,汽车销售在中国呈现疲软状态,进入低速增长甚至下降的形势。据中汽协公布,2018年全国汽车销售量为2808.06万辆,同比下降2.76%;2019年销量2
十一届三中全会至今,我国经济社会快速发展,城镇化和工业化的快速提高导致了规模巨大的人口迁移。城镇化的本质就是农村劳动力向城镇的转移。劳动力迁移不仅是人口在城乡之间的变化,更是对城乡土地资源进行重新构建,由此伴随产生了社会问题,如城乡土地资源配置不合理、城镇化质量偏低、空心村、留守儿童、农村人口老龄化等。近年来,我国经济已由高速增长阶段转向高质量发展阶段,原来单一的农村城镇化发展已不适应当前发展,在
能够为全球提供无缝覆盖通信服务的星地融合天地一体化网络,正成为未来移动通信网络建设中的重要研究方向。但现有天基网络与地面5G网络融合的结构中,网络设备和网络功能之间耦合关系错综复杂,对于统一管理和实行快速的动态资源调度提出了更高的要求。针对上述问题,论文结合网络功能虚拟化、软件定义网络等前沿技术整合异构天基信息资源,在实现网络功能和资源分离的基础上,充分借鉴5G云原生化理念,设计并实现了一种以容器
随着物联网时代的来临,大型的室内场景将会不断增加,人们也将对室内场景位置的感知产生强烈的需求。为实现在线定位时用户上传的图像与场景图像数据库的快速检索与精准匹配,室内场景分类问题得到了越来越多研究人员的关注。作为场景分类研究领域的一个分支,室内场景分类不但可以提升图像检索的效率,而且在智能安防、无人驾驶、机器人导航等领域都有广泛的应用。针对室内场景本身所具有的结构复杂性,以及不同场景特征之间具有的
改革开放以来,以工业化、城市化为依托的现代化建设,使城市人口不断聚集,城市面积持续扩大,征地拆迁的范围也不断推进。土地作为农民最重要的生产资料和收入来源,然而土地征收使农民失去了对土地的使用和收益权,丧失了获得经济来源的基础。征地拆迁补偿安置是一个长期热门的话题,吸引了社会各界的目光。趁着改革开放、西部大开发和重庆直辖、成渝双城经济圈等一系列重大利好,重庆的经济、文化、社会发展迅猛。渝北区作为重庆