基于UCT算法的非完备信息多人军棋博弈系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:iqplll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
博弈游戏的分类方法之一是根据其游戏的参与者是否拥有完备的游戏信息。据此,博弈游戏可以被分为完备信息博弈和非完备信息博弈两个大类。在非完备信息博弈过程中,每个游戏者拥有自己单独的信息集,也就是说,他只拥有整个游戏的部分信息。围绕着完备信息博弈的研究已经取得了相对成熟的结果。很多人工智能程序的核心架构是:当电脑走棋的时候,根据当前棋局创建一个部分的博弈树,利用估值函数对叶结点进行估值,通过估值的结果来进行极大极小值搜索,找到一个在根结点的最佳走步。然而,迄今为止非完备信息下的非常成功的人工智能博弈程序很少。非完备信息博弈问题的解决技术和完备信息有很大的差异,应用于完备信息的技术不一定能够成功的应用到非完备信息博弈中。蒙特卡罗抽样算法是现今应用于非完备信息博弈中的一个基本方法,它通过随机抽样将非完备信息博弈问题转换为完备信息博弈问题,同时通过大规模的抽样次数来逼近真实的情况。该方法在一些非完备信息博弈游戏中,例如Alberta的桥牌程序,已经取得了较好的效果。UCT (Upper Confidence Bound Apply to Tree):应用于博弈搜索树的上限置信区间算法。这种新兴的搜索算法采用以上限置信值为依据的先深于先广搜索相结合的方法,在超大规模博弈树的搜索过程中相对于传统的搜索算法有着时间和空间方面的优势。在与风险评估模型相结合的基础上,可以在可控的时间内得到当前局势下的相对较优的解决方案。本文探讨了UCT算法在非完备信息博弈中超大规模搜索树搜索过程中的应用,并基于该算法结合蒙特卡罗抽样技术和风险评估模型实现了一个具有自动网上挂载功能的四国军棋博弈系统。本文的主要研究成果和创新之处在于:1.实现了UCT搜索算法,并将之应用为博弈系统的搜索核心。提高了系统的搜索速度和深度;2.进一步扩充和精确化了四国军旗博弈中的蒙特卡罗抽样技术;3.在已有四国军棋的框架系统上,将蒙特卡罗抽样技术、UCT算法和一个简单的风险模型有效结合成了一个具有更强的博弈能力和更高的人工智能水平的新系统。4.新的四国军棋系统可以自动挂载到网络和人类玩家进行博弈,该功能解决了系统棋力客观评估的问题,同时使大规模博弈过程以及对局信息数据库的建立成为了可能。
其他文献
<正> 一、建立青年发展指标体系的必要性 青年发展是一个涉及社会方方面面的教化与成长过程。青年发展指标体系是对青年总体发生状况、发展趋向、社会化进程及社会生活参与所
介绍了耐火可塑料在轧钢加热炉上的使用效果,并得出通过选择耐火可塑料作为炉衬,精心组织施工,科学烘炉可以延长加热炉炉顶及炉墙的使用寿命,同时能够提高产量和降低能耗。
<正> 各区、县级市人民政府,市府直属各单位:为加强国有企业改革转制中原划拨土地使用权的管理,适应社会主义市场经济发展的要求,实现土地资源的合理、有效配置,支持国有企业
本文从理论和实践的结合上,阐明了马克思经典著作《<政治经济学批判>导言》中生产与消费的关系。一、生产和消费间存在直接同一性;二、生产和消费存在相互媒介关系;三、生产和消费
食物权是人人享有的获得充分的食物的权利。该权利的产生和发展经历了一个从反射性利益到概括式授权,再从困境到勃兴的漫长过程。食物权的提出不仅归因于全球粮食危机,也由于
【正】千烟洲试验站(点)始建于1982年,位于江西省泰和县境内,北纬26&#176;44’,东经115&#176;04’,属典型中亚热带红壤丘陵区,土地总面积
随着我国城市的快速发展,城市原有建筑与环境面临新的问题与挑战,本文以历史文化名城新绛天主教堂地区更新改造为例,深入剖析该地段原有社会生态系统潜在联系,指出新绛天主教
根据太钢2250mm热轧加热炉低温烟道管用喷涂料的技术要求,结合公司轻质骨料状况,通过合理地添加硅微粉、有机增粘剂,开发出适合该条件下使用的轻质喷涂料,达到了良好的施工及
以《中国生物医学文献数据库》为数据源,采用文献计量方法对1987—2011年间医药卫生科技查新论文分布状况、作者情况以及研究内容等进行统计分析,以了解其研究状况和进展。