德州扑克计算机博弈对手模型的研究及其智能体的设计

来源 :重庆理工大学 | 被引量 : 0次 | 上传用户:libra163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机博弈是人工智能研究中的子领域。许多学者都曾致力于棋牌类游戏的博弈智能研究工作。游戏,就是按照一套规则进行的活动,游戏中玩家较量技巧与智慧来获得最优的奖励。因此,游戏是优秀的人工智能研究实际场景,也被学者称之为研究人工智能的果蝇。人工智能研究通过研究游戏各方的对弈活动,达到研究新算法、验证新算法的目标。另一方面,互联网的普及应用,极大推动了线上游戏产业的发展,人类在线上游戏中实时的、个性化的游戏需求激增,催生了游戏机器人技术,从而给计算机博弈研究带来巨大的商业价值。德州扑克是一种两人或多人牌类游戏,属于不完美信息博弈,即博弈各方不能完全知晓其他各方的全部信息。德州扑克各个玩家的手牌和动作的状态多样性,使其博弈空间巨大,博弈求解过程中搜索路径繁多,寻找最优解非常困难。论文以两人非限制性德州扑克为研究对象,目标是构建一个具有实力的小型德州扑克智能体,为智能体构造对手模型,以提高收益能力。论文的主要工作包括三个方面:(1)针对德州扑克传统评估方法面临的空间复杂度高问题,提出一种新的评估方法,利用大量位运算计算特征值来判断牌型,在此基础上使用线性规划来计算近似牌力值,能快速完成评估牌力,为后续工作奠定基础。(2)针对传统策略求解算法难以在线实时求解问题,构造缩小状态空间的状态抽象与动作抽象算法,该算法在博弈不同阶段,动态调整抽象的精度。提出改进的反事实遗憾值最小化算法,将游戏分解为更小的子游戏,通过限制搜索深度方式,在博弈规则允许的时间范围内,使得智能体可在线求解近似的纳什均衡策略。(3)针对单一智能体不能有效利用对手弱点并实现效益最大化的问题,建立对手模型,以此辅助决策。具体来讲,是通过统计对手出牌历史信息,生成对手行为模式树,以此发现、分析对手的策略偏向,并产生对策和自适应方案,以此提高了智能体的收益能力和稳定性。为验证本课题算法有效性,设计一个德州扑克智能体博弈系统。实验证明论文提出的评估方法可高效率计算近似有效牌力值,近似均衡策略表现稳定,对手模型可以有效针对较弱的对手提高收益。该系统参加了2020年中国计算机博弈大赛并获得一等奖,证明研究成果有效、智能体具有一定实力。
其他文献
发动机作为现代工业技术的结晶产物,其设计过程高度集成了工业社会大量的智慧成果。对于一款完整的发动机而言,为使发动机的性能不断提升需要从设计研发,优化到试验阶段都尽可能地对发动机性能进行优化。在发动机标定过程中,对除设计参数以外的各可调参数进行综合分析并寻找到综合性能较优的运行方案是一项工作量巨大的工作,对设计人员和标定工程师的理论及实践要求都很高。本文则希望通过数值模拟的方式来配合在研机型的标定试
近年来,因光纤模间干涉型的光纤传感器具有结构简单、价格低廉、抗电磁干扰能力强,以及易于实现多个物理量测量等优点,所以由特种光纤级联单模光纤构成模间干涉结构的双参量传感器受到了许多科学家的关注。结合仿真模拟软件Rsoft进行光信号的传输光路模拟,搭建不同传感结构,对温度、折射率进行同时测量,其中主要的工作内容为以下几个方面:1.首先对传统四种干涉传感结构进行了简单介绍,分析了马赫-曾德尔干涉结构优缺
光纤传感器具有抗电磁干扰、重量轻、体积小、灵敏度高等优点,因此广泛应用于应变、温度、折射率、压力、电流、生物和化学等研究领域。本文设计并制作了三种基于特种光纤模式干涉的氟离子传感器。首先制作了马赫-曾德尔传感器,将薄芯光纤(Thin-core fiber,TCF)嵌入在两段多模光纤(Multi-mode fiber,MMF)之间,再用单模光纤(Single-mode fiber,SMF)将多模光纤
近年来,云计算技术的出现带动了全球互联网产业的飞速发展,与此同时也暴露出一系列的安全隐患,数据泄露的风险是现阶段使用者们最为关注的核心问题。图像往往是反映用户个人信息最为直观的数据类型,因此,如何在海量数据的环境下保证用户在云端存储的图像文件以及安全有效的检索,进而构建一个用户云端图像数据,已成为信息安全与图像加密领域研究的热点问题。论文以保证用户云端图像数据安全为切入点,以图像加密,密文图像检索
水电站发电量由水电站流量水头控制,同时,库区内的水位、上流水位、毛水头等各类水文资料数据又被认为是维护整个水电站发动机组正常工作、堤坝安全进行监控的主要重点和对象,只有把水位资料自动及时的传递到管控决策层,上级的应用程序软件和控制系统才可以得出更加科学的判断与预测。传统水位监测方式通过水电站工作人员目测水尺读数或者专业的水位传感器测量实现,而水电站往往位于边远地区,环境恶劣,在极端天气环境,将会威
近年来,随着中国自主品牌变速器企业的迅速发展以及自主技术的突破,基于湿式离合器研发的自动变速器在国内乘用车变速器市场中的占比逐年攀升。湿式离合器工作过程中摩擦副滑摩产生大量摩擦热,摩擦副油槽中冷却润滑油带走一部分热量,其余热量被摩擦副吸收导致其温度急剧升高,并且容易出现摩擦因数衰退、表面烧灼、局部或整体变形等热失效现象,降低了湿式离合器的工作性能以及热可靠性,从而影响变速器系统的换挡性能和寿命。本
党的十九大报告指出,我国经济已由高速增长阶段转向高质量发展阶段。十九届五中全会明确,构建高质量发展的国土空间布局和支撑体系,推动共建“一带一路”高质量发展。这对于城市规划设计服务行业来说,既是机遇,也是挑战。UPD是一家年轻的城市规划设计研究院,主要承担西部地区及全国的国土空间规划以及各类城乡规划设计与咨询服务。拥有较多的政府资源,同时也承担着较大的社会责任。目前,从UPD的经济效益来看其发展状况
型材在生产及运输过程中容易出现弯曲缺陷,常常需要进行矫直以改善平直度。利用数值模拟可以节省矫直工艺开发的成本。多辊矫直的模拟通常采用拉格朗日网格,存在型材较长时网格数量多、辊轮与型材接触处理效率低等问题。因此,本文提出一种基于欧拉网格的多辊矫直数值模拟的新方法:只对矫直机跨内空间进行网格剖分,网格数量更少;工件与辊轮的接触转变为工件的边条件,不必引入接触算法;方便建立变曲率、变截面参数的工件模型,
GH4169合金在较广的温度范围内具有良好的综合性能,凭借其优异的力学性能和长期组织稳定性,在航空航天、兵器装备和机械制造以及石油化工等领域中发挥着不可取代的作用,广泛应用于航空发动机的核心热端部件,如涡轮叶片和涡轮盘等。这些热端部件在飞机飞行过程中通常处于高温、高压和高负荷的特殊环境,反复承受冲击载荷作用。而作为主结构承力件的GH4169合金还常常受到高应变率的作用,这对其在高应变率、高温下的动
心脏弥散张量成像(cardiac diffusion tensor imaging,cDTI)是目前唯一可以无需造影剂、无创地评估活体心肌微观结构的技术。与传统组织学有创检测不同,cDTI基于人体中水分子在组织中的弥散特性进行成像,使用施加弥散敏感加权梯度的序列技术进行图像采集,并建立高斯运动指数模型对信号衰减进行建模,最终通过张量对弥散的各向异性进行表征,并衍生出一系列特征参数对心肌结构变化进行