基于蒙特卡罗树搜索的计算机扑克程序

被引量 : 11次 | 上传用户：yueyinxiangzhu

【摘要】

：

计算机博弈是测试人工智能所达到水平的一个重要平台。早期的研究主要集中在确定性完全信息博弈之上。然而由于与现实之中的问题更加贴近,非确定性非完全信息博弈逐渐引起学

【作者】

：

曹一鸣

【发表日期】

：

2014年01期

【关键词】

：

计算机博弈德州扑克蒙特卡罗树搜索对手模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

计算机博弈是测试人工智能所达到水平的一个重要平台。早期的研究主要集中在确定性完全信息博弈之上。然而由于与现实之中的问题更加贴近,非确定性非完全信息博弈逐渐引起学术界的重视。德州扑克是一种非确定性非完全信息博弈。因为它的规则简单同时富于变化,所以其作为这种博弈的一个典型,正在成为计算机博弈研究领域的又一个热点。机器学习中的蒙特卡罗树搜索算法,是一种集成了蒙特卡罗方法作为评估的博弈树搜索算法,毋需引入过多的领域知识,同时具有巨大的可扩展性。多臂匪徒问题是一种从多重决策选择问题之中抽象出来的一种机器学习模型。UCB策略是求解多臂匪徒问题的一种方法。集成UCB策略的基于UCT的蒙特卡罗树搜索算法被证明可以极大地提升计算机博弈引擎水平。本文结合德州扑克的相关特性改进并设计了德州扑克的蒙特卡罗博弈树,同时对博弈树中的相关节点设计了对应的模拟、选择、回溯更新策略。本文使用C++编程序语言、面向对象技术以及设计模式思想实现了一个德州扑克的博弈引擎。本文为基于蒙特卡罗树搜索算法的博弈引擎引入了与德州扑克的相关的领域知识,其包括Bucketing的底牌提取,以及在此基础上的基于统计的对手模型用于模拟对手以及估计对手的底牌的概率分布。最后我们提出了一个保守度的概念用于将引擎的下注行为改造成一个比较“松”的策略。本文设计四个实验来验证纯粹的蒙特卡罗树搜索引擎的性能,并通过分析输出日志,发现了过“紧”的下注策略对于博弈的负面影响。我们测试了在引入保守度后执行一个比较“松”的下注策略时对博弈结果的影响,同时验证集成了对手模型后对于程序博弈水平的提升。最终,通过实验结果的分析,可以确认,蒙特卡罗树搜索算法可以应用于求解非确定性非完全信息博弈问题。同时在求解德州扑克博弈的问题中,集成领域知识以及对手模型可以提高蒙特卡罗树搜索引擎的性能。

其他文献

一位骨科专家的简单与精彩——访北京大学首钢医院骨科主任兼大外科主任张光武教授

2016年9月15日，中秋节。随着夜幕降临，在微信朋友圈和各种微信群里“晒”圆月。成了很多人不约而同的过节方式。尽管当晚月亮刷屏，但当记者在常去的一个微信群里看到群友王医生

期刊

北京大学首钢医院大外科

基于创新人才培养的高校思想政治教育现状及对策研究

建设创新型国家，是我国在知识经济时代提高国家整体实力，应对激烈竞争的重要战略举措。创新人才的培养是创新型国家建设、自主创新能力增强的后盾，但人才的培养需要教育做支撑。

学位

创新人才培养思想政治教育改革

基于Web的河北省园林植物病虫害诊断系统框架构建

园林绿化建设已经成为城市建设中最为重要的组成部分。园林植物作为园林绿化、景观设计的基本要素之一，其种类丰富、适应性强、观赏效果明显，发挥着重要的生态效益、经济效益和

学位

园林植物病虫害诊断专家系统框架河北省

室内综合机电管线深化设计探讨

文章阐述了机电管线安装工程深化设计的过程、方法及应遵循的原则,提出了应重视的细节问题,并对苏州科技文化艺术中心工程专业管线排布进行了深化设计。

期刊

深化设计机电安装专业管线排布

海水直流冷却电厂烟气脱硫废水处理工艺的研究

某海水直流冷却电厂除脱硫废水外,所有生产废水均已处理回用.为达到废水零排放目的,拟采用软化预处理–微滤–反渗透–电渗析工艺对脱硫废水进行膜法减量浓缩处理.对浓缩减量

期刊

燃煤电厂海水直流冷却脱硫废水浓缩减量微滤反渗透电渗析废水零排放

无处不在的环保行为──德国Rüdersdorfer水泥厂环保见闻

期刊

环保行为废弃物管理dersdorfer水泥厂

互联网环境下电子书和纸质书的双渠道定价策略研究

在互联网高速发展的今天,人们对于网购已经习以为常,对电子书这样一种特定的数字产品的需求也越来越大。亚马逊的Kindle系列阅读器的出现,改变了电子阅读一直以来发展缓慢的

学位

供应链电子渠道电子书定价模型最优利润

线阵CCD图像实时采集系统研究

近年来，中国农业机械化快速发展，特别是精密播种机，具有强大的推广势头。作为精确农业的最重要也是最基本的一个环节，精密播种机的性能的优劣直接影响着农作物的生长，与农作物的产

学位

粒距检测线阵CCDFPGADSP数据存储

平衡计分卡在提升企业战略执行力中的应用——以A房地产项目咨询公司为例

在当今全球及区域经济一体化的进程中,平衡计分卡的问世给企业管理带来了巨大作用。平衡积分卡是一个全面的战略管理业绩评估系统,从战略层面分解出四个基本指标,有效的调动

期刊

战略执行力平衡记分卡战略目标

马克思与弗洛姆异化思想的比较研究

马克思和弗洛姆分别是19世纪和20世纪对异化问题有深入研究的哲学家。马克思置身于手工制造业为主要社会生产方式的时代背景,看到的是高强度劳作对工人体能的摧残,因此他关注

学位

矛盾异化劳动异化心理异化扬弃

基于蒙特卡罗树搜索的计算机扑克程序

与本文相关的学术论文