德州扑克计算机博弈智能决策模型研究

来源 :重庆理工大学 | 被引量 : 1次 | 上传用户:gaolch006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机博弈一直是人工智能最具挑战性的研究方向之一。它也称机器博弈,主要分为完全信息计算机博弈和不完全信息计算机博弈两大类型,其中,完全信息计算机博弈是指博弈各方在博弈状态、博弈进程完全透明下的博弈,而不完全信息计算机博弈是指博弈各方的博弈状态或过程信息不透明、或不完全透明下的博弈。论文中的德扑博弈就属于是非完全信息计算机博弈的一个实例,论文以它为应用研究对象,探讨人工智能技术在非完全信息博弈中的实际应用。机器学习是人工智能领域的一个研究热点,以谷歌阿尔法狗为代表的围棋博弈程序,表现出了强大对弈能力,围棋仅仅是双人完全信息博弈棋类游戏,而德扑属于两人或两人以上的非完全信息博弈牌类游戏,因此,如何对照围棋博弈方法将强化学习与神经网络相结合,并应用于非完全信息的德扑博弈中,是计算机博弈领域亟待解决的问题。特别是强化学习面对德扑博弈中信息不完全、高维状态空间、存在过估计问题、难以快速发现最优解,以及难收敛等问题,极大地影响了博弈程序的战力。论文针对上述问题,采用人工神经网络和强化学习相结合的方法,改进强化学习算法,改进卷积神经网络,研制德扑决策模型,最后验证决策模型达到预期效果。论文具体研究工作内容为:(1)依据决策模型的网络结构,提出一种德扑博弈决策模型的扑克数据表示方法,让数据更好地进行卷积。(2)依据零和博弈思想,设计基于UCT算法的德扑决策模型回报函数,根据博弈产生的实际收益与UCT算法输出的期望收益之差,决定决策模型的奖惩,当实际收益大于期望收益时,则对决策模型进行奖励,当实际收益小于期望收益时,则对决策模型进行惩罚,以此对决策模型进行更新。(3)针对卷积神经网络的过拟合问题,使用dropout函数优化神经网络,增加神经网络连接的随机性和稀疏性。改进卷积神经网络的激活函数,将LReLU函数与Softplus函数相结合而构造L-S函数,提高了卷积神经网络的收敛性。(4)依据优势学习思想,通过引入更正函数的方法,改进DQN算法的评估函数,优化DQN算法的动作选择策略。然后,通过融合SARSA算法的更新目标,动态的结合DQN算法和SARSA算法各自优点。最后,提出DQN-S算法,提高了算法的学习效率。(5)将上述研究成果应用到德扑决策模型,采用python语言以及Tensorflow框架,实现了德扑博弈系统。最后进行了实验验证,改进后的德扑决策模型与改进前相比,改进后的德扑决策模型赢得了更多筹码,决策模型决策能力得到了明显提高。本文实现的德州扑克博弈系统参加了2019年在北京举办的全国大学生计算机博弈大赛,获得了一等奖,验证了系统的有效性。
其他文献
简述柴油发电机组的种类及目前对其功能、技术性能等的要求。对柴油发电机组的三大部分即柴油机、发电机和自动控制、检测、保护装置的技术发展进行了全面论述,比较了国内外的
目的:探究山莨菪碱对ACS合并糖尿病肾病患者接受择期PCI术后肾功能保护作用的临床效果。方法:选取2010年3月至2013年3月在我院接受治疗的180例ACS合并糖尿病肾病患者为研究对
本文以现代汉语中具有主观极量表达特点的图式性构式为研究对象,以“人文主义”语言观为研究向导,以构式语法、功能语法、语义语法、主观性和主观化理论、语法与修辞互联理论
通过正交实验研究了焦磷酸钠、三聚磷酸钠和水分对猪肉丸质构特性和破裂特性的影响。结果表明,当焦磷酸钠和三聚磷酸钠混合使用时,高剂量的焦磷酸钠对肉丸的食用品质有负面的
本文以六朝生活美学为例,对中国古代生活美学研究的可行性展开探讨。相比传统的审美思想、审美范畴、审美文化研究,在研究范围上,生活美学的研究领域进一步扩大了,它改变了此
在实证卫生经济学的研究中,如何分离逆向选择因素进而无偏的估计出道德风险的影响,一直是一个公认的难题。该研究试图使用我国过去几年医改中特有的政策变迁来获得对道德风险
本文对民族的概念、民族精神的内涵以及民族精神的重要作用进行了阐释.提出培育民族精神一是要弘扬中华民族的优良传统,二是既要克服民族的精神痼疾又要防止西方的文化殖民,
根据IAEA、ISO、美国、中国等机构和国家对UF6运输货包的要求,分析我国相关标准的不足。从设计角度对美国30B、48X和我国740 L、3 m3容器进行了对比。介绍了几种早期采用的UF
乌尔姆是在继包豪斯之后,设计史上最具里程碑意义的设计学院。解读乌尔姆的设计教育思想,对于探索现代工业设计教学具有重要意义。文章从设计理念、教育思想和教学模式三个层
自我国高校体育选项教学开展至今,已经有很长时间,但是仍未在高校全面推广,尤其是大专院校。目前我国高校一个学期仅有18个教学周,学生体育课一个学期仅有36个学时,除去学期