基于Expectimax搜索的非完备信息博弈算法的研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:chen2591272
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器博弈是人工智能的一个重要领域,以其挑战性和重要性吸引了众多研究者的目光。机器博弈即用计算机解决博弈问题。博弈问题可以根据参与者能够获取博弈信息的程度分为完备信息博弈和非完备信息博弈。在我们现实生活中,大多数决策问题都可以抽象为非完备信息博弈问题,例如金融竞争、交通疏导、网络安全和军事安全等,研究非完备信息博弈有重要的现实意义。非完备信息博弈最大特征是信息的隐藏性,这就增加了求解最优策略的复杂程度。本文选择麻将游戏作为研究对象,麻将游戏具有非完备信息性、多人博弈、状态空间和动作空间巨大以及不确定性等特点,是一个很有挑战性和代表性的非完备信息博弈游戏,而且麻将游戏的随机性很强,相比于其他棋牌游戏来说更加贴近生活中的博弈问题。以往的麻将程序主要是基于Expectimax搜索算法进行设计,利用博弈论的方法进行研究和改进,多依赖于人工先验知识,存在很大限制性。本文结合深度强化学习技术和MCTS算法对Expectimax搜索算法进行改进和优化。针对传统Expectimax搜索算法存在的问题,本文对其进行了三个方面的改进:本文将MCTS算法与Expectimax搜索算法进行结合,改进其扩展方式和剪枝策略。本文对MCTS算法的选择、扩展、模拟、反向传播过程进行改进,并将其应用于Expectimax搜索算法中,利用MCTS的特性,减少博弈树分支个数,同时使博弈树动态扩展,减少算法耗时的同时提高算法的性能。本文利用深度强化学习技术,将Double DQN算法和Prioritized Experience Replay DQN算法进行灵活结合,作为估值网络替换Expectimax搜索算法的估值函数,使其摆脱人工先验知识的限制,有更强的学习能力和更大的提升空间。本文在上述改进算法的基础上,结合其独特的博弈树特征,提出了一种新的麻将吃碰杠决策算法,灵活利用博弈树原有数据,比其他评估方式更加合理,与出牌决策算法结合,提升了算法整体的决策能力和智能水平。最后本文将改进后的算法应用到麻将游戏中,基于RLCard平台实现了麻将智能博弈系统。与其他的算法进行对比实验,本文的算法在训练效率和决策能力上都有一定的改进效果。本文基于麻将游戏研究实现高效的多人非完备信息机器博弈优化算法,一方面可以为非完备信息博弈问题的研究提供一些新的思路和探索方向,另一方面可以为实际的麻将博弈系统提供一些优化方向和改进方法。
其他文献
场景图生成是计算机视觉领域的重要研究方向,很多的研究学者不断探索和研究针对图像深度理解领域中的问题。为了加深对图像理解的研究,在目标识别、图像字幕、视觉问答以及自然语言处理等研究基础下,场景图生成任务逐渐成为一个当前计算机视觉领域和自然语言处理相结合的热点研究课题。场景图生成任务要求丰富而高级的语义理解,这对机器来说是一个巨大的挑战。为了提升场景图生成模型的质量,本文针对场景信息利用不充分和在数据
随着城市化阶段的快速发展,城市土地扩张吸引了大量人口,带动了交通设施的建设规模,城市交通展现出出行需求快速增长的特征,而高速的发展和与日俱增的交通需求极易出现供需不平衡现象,造成交通拥堵、环境污染等城市交通病。因此在交通治理问题中,人们需要更加注重交通系统内部的协调,同时抓住信息化时代城市交通发展的新机遇,用信息化手段分析挖掘居民的出行特征。交通出行方式的识别是居民出行研究内容的一部分,在以GPS
在新冠疫情和直播行业竞争日益激烈的大背景下,差异化、垂直领域成为了主流直播厂商的核心战略。作者所在的字节跳动直播团队在2020年初开始发力音频类直播,直播K歌作为一种教育成本低、受众广的模式由此诞生。从产品功能的角度来看,本文所提到的直播K歌/KTV歌房系统中,包含9个业务功能,分别为直播K歌资源管理功能、直播K歌歌曲管理功能、直播K歌歌曲演唱功能、直播K歌音效功能、直播K歌听歌功能、KTV歌房资
随着我国货物运输结构调整的稳步推进和铁路货物运输能力的逐步释放,铁路集装箱运输逐渐凸显出铁路运输和集装箱运输的双重优势,愈发受到中国国家铁路集团有限公司的重视。现阶段国内主流铁路集装箱型为20英尺国际标准集装箱,但该箱型在我国内陆地区流通时存在较严重的容积和载重能力浪费,因此20英尺35吨通用集装箱被开发并投入市场,相比于20英尺国际标准集装箱,20英尺35吨通用集装箱具有能够充分利用箱体容积和载
铁是人体内重要的微量元素,也是人体生理环境中最丰富的过渡金属元素。Fe3+和Fe2+在人体的生物过程中起着重要作用,当人体摄入铁离子过多或缺乏时会导致各种疾病。因此,高效、便捷对Fe3+和Fe2+进行选择性识别与检测,具有重要意义。使用荧光探针是一种非常简单有效的金属离子识别方法。含四苯乙烯结构单元的荧光探针,由于具有聚集诱导发光效应而被广泛应用于金属离子的识别当中。本文以四苯基乙烯为原料,设计并
为了应对国外对我国能源的限制,国家大力推动电动汽车的发展,同时大批量的车用动力电池逐渐淘汰,车用动力电池退役后仍然具有大约80%左右的容量,将其筛选分类后可用于对电池性能要求不高的其他领域,可以最大化锂离子电池的全生命周期价值。锂离子电池应用场景广泛,导致退役电池出现较大的不一致性,直接成组使用会造成一定程度上的安全问题。本文以梯次利用电池的筛选与筛选后梯次利用电池的综合性能评估方法为研究内容,主
简历大多以非结构化文本的形式存在,且数量众多。从此类简历文本中准确提取结构化信息,具有广泛的用途,可以为信息检索、关联分析、数据匹配等诸多上游应用提供基础。简历信息抽取方法大多基于规则和模版的方式,通过人工定制规则对特定的信息进行抽取。在大数据量情况下,此类方法存在成本高、效率低、灵活性差等问题。基于传统机器学习的方法虽然可以一定程度上减少人工成本,但过于依赖特征工程。本文针对这些问题进行研究,采
智商是衡量个体认知能力的重要指标,与大脑功能密切相关,其客观有效的度量不仅具有科学意义,还具有一定的实用价值。静息态磁共振成像(f MRI)技术根据血氧水平依赖(BOLD)信号来获取大脑自发活动,其无创性、时间和空间分辨率高以及不同样本之间的可比性使得该技术在脑功能研究领域得以广泛应用。随着机器学习技术的进步,基于静息态f MRI客观测定智商成为了领域内的热点课题。基于静息态f MRI的智商客观预
根据道路交通事故统计年报数据显示,2019年我国累计发生交通事故超过24万起,国内交通安全形势仍然比较严峻。目前,针对交通事故频次的研究多集中在微观和中观层面,较少从宏观尤其缺少从城市群层面研究交通事故数及其影响因素。本文利用京津冀城市群区域的违章数据,以京津冀各区县为空间分析单元,分析超速和酒驾违章频次的时空分布特征;构建超速和酒驾违章频次的传统负二项和时空效应模型,分析超速和酒驾违章频次的显著
随着深度学习的不断发展,人脸识别技术也愈加趋于成熟。人脸识别是指利用人的脸部特征推断其身份的一种生物识别技术。但在新型冠状病毒的肆虐下,人们戴起了口罩防疫,而口罩的遮挡却给人脸识别带来了巨大的挑战。口罩的存在遮住了人脸一半以上的特征,造成了巨大的信息损失,导致现有人脸识别算法表现大幅度下降。因此,为了减少口罩遮挡对人脸识别的影响,本文提出结合人脸修复的人脸识别算法。本文主要贡献如下:针对口罩遮挡区