自对弈棋局学习样例生成器的设计与实现

来源 :郑州大学 | 被引量 : 0次 | 上传用户:long1024
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机博弈是人工智能领域中一个重要的研究方向。作为计算机棋类游戏学习中的一个重要方法,自对弈学习是指仅依赖对弈过程及终局输赢结果的一种学习方式。在整个自对弈过程中,除下棋规则外不事先设定任何领域知识,也无专家参与指导。目前,基于极大极小值算法、α-β剪枝算法和蒙特卡洛搜索算法的自对弈学习已经取得卓越成绩,但是在棋类游戏人工智能研究中仍然存在很多未能研究清楚的问题。其中,研究人员需要面对的主要问题之一是如何在有限的时间内尽可能多的收集到高质量的学习样例。针对这一问题,本文设计并实现一个自对弈学习样例生成器软件系统。在充分分析了研究人员对样例生成器的需求后,设计和完成了两个子系统:井字棋学习样例生成器子系统和西洋跳棋学习样例生成器子系统。本文主要工作如下:⑴分析了样例生成器的概念框架结构,该框架包括生成器、执行系统、鉴定器和泛化器四个部分。执行系统以生成器产生的新棋局为输入,根据评估函数V自对弈并得到学习样例(行棋记录),鉴定器使用学习样例进行训练;泛化器产生新评估函数。⑵设计和实现了井字棋和西洋跳棋学习样例生成器子系统,井字棋子系统穷尽棋面来生成所有学习样例,并直观展示完整的博弈树及样例生成过程;西洋跳棋子系统复杂度较高,使用边对弈边保存的方法得到学习样例。⑶提出了两种棋盘状态评分方法和两个学习指标来分别测试两个子系统的生成能力,结果表明两个子系统都达到了设计目标。井字棋子系统在两种评价方法下均可生成有效样例,西洋跳棋子系统可根据指标来控制样例的生成个数。自对弈学习样例生成器软件系统已作为平台提供给相关研究人员,近半年的运行表明,系统运行总体正常。可以有效生成两类棋局的学习样例,并较好地满足了研究人员的实验验证的需要。
其他文献
农业绿色发展日益成为当前和今后时期农业发展的主导理念,研究绿色生产率对农业经济增长的贡献及其对农业污染减排的作用是农业高质量发展的重要课题。本文基于1998~2018年省
控制性能评估是控制理论研究领域的重要分支。工业控制回路中的控制器在投产初期一般能保持高性能状态,但由于复杂工业环境的影响,回路控制器不能长时间保持稳定运行,进而使
甘草素是一种从甘草中提取的二氢黄酮单体成分,具有抗炎、抗菌、保肝、抗肿瘤等多种药理活性。其中,体内外抗肿瘤作用研究结果表明,甘草素抗肿瘤效果突出,有望成为新一代抗肿
近年来,全球气候异常变化加剧了区域内降水时空分布不均的现象,这给华北地区农林复合系统水分的高效利用带来新的挑战。农林复合系统在保持水土、涵蓄水源、调节区域小气候及增加单位面积总产值上具有独特意义。因此,本文利用稳定氢氧同位素的方法研究株行距4 m×5 m核桃-小麦/大豆复合系统种间水分利用策略,为农林复合系统实现高效的管理提供科学的指导和依据。主要的研究结果如下:(1)核桃冠层叶面积指数在4月-9
语言出版业是语言产业九大业态之一,它主要是指专门将具有工具性、知识性、学术性和大众性的语言文字类书刊、图画、音像等作品成批制作并向公众发行的行业。语言出版是指以
非线性控制方法近些年来取得了长足的发展,Takagi和Sugeno于1985年提出的T-S模糊系统模型,其能够将复杂的非线性系统转化为隶属度函数和多个线性模型构成的模糊系统。在实际
随着工业4.0时代的到来,科学和技术不断发展,信息物理系统(Cyber-Physical Systems,CPS)走进了人们的视野。CPS 利用 3C(Computer,Communication and Control)技术的有机融合
车辆再识别(Vehicle Re-identificaiton,Re-Id)的任务是在包含有多个摄像机捕获的图像数据库中搜索指定车辆的图像,在视频监控、智能交通和城市计算等方面具有普遍应用,在计
固体氧化物燃料电池(Solid Oxide Fuel Cell,SOFC)是一种高效清洁的能源转换装置,目前在商业化应用方面主要受到运行性能和寿命的限制。固体氧化物燃料电池长期运行稳定性较差,主要原因是反应气体分布不均引起温度分布不均,造成应力不均,电池出现裂纹、细缝等结构破坏。SOFC的气体分布由电池气道结构决定,受到内部多种物理化学过程的影响。SOFC尺度小,电池中多种物理量相互作用,物理场的
随着中国经济的不断发展,越来越多的企业做大做强,由此,也出现了许多集团式公司,并不断的向多个行业、跨行业进行发展。我们都知道,集团及其下属子公司之间总是有着千丝万缕