中国象棋计算机博弈中的增强学习研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:lhaoyue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机博弈曾一直被称为是人工智能研究的“果蝇”,但对于有几千年历史的中国象棋的计算机博弈的研究却远远落后于其它棋类,为了改变这种局面,东北大学成立了“棋天大圣”中国象棋计算机博弈代表队。论文选题正是来源于在队内所做的研究工作。 为了解决传统的线性评估函数对中国象棋局面的评估不够精确的问题,本文提出了两个解决方案:一个是使用TD(λ)增强学习算法优化传统的线性评估函数的可调参数;另一个是使用人工神经元BP网络替代传统的线性评估函数,然后使用TD(λ)算法训练该网络。一个中国象棋增强学习系统被设计用来实现这两个方案的学习过程。在该系统中可以使用TD(λ)算法进行四种形式的学习:专家棋谱数据库学习,自学习,固定对手学习和网络对战学习。为了验证学习的效果,设计了一个连线器用于将本系统连接到Internet上的一个网络对战平台—弈天棋缘,通过在网上擂台的等级来评价学习后的棋力提高程度。 实验表明,使用TD(λ)算法训练BP网络的方案潜力巨大,值得进行更深入的研究;使用TD(λ)算法优化线性评估函数的方案实施效果很好,可以大大提高系统的棋力。
其他文献
随着移动互联网络的发展和大数据时代的到来,如何从海量数据信息中找出对用户有用的信息以帮助决策显得越来越重要。作为数据库领域的一项重要操作,Skyline查询能从数据集合中
在下一代互联网NGI(Next Generation Internet)中随时随地高质量地享受网络服务已经成为人们迫切的要求,客观上要求在通信开始和进行期间支持用户总最佳连接ABC(Always Best C
随着信息技术的飞速发展,信息化在中国经济与社会发展的过程中起着越来越重要的作用,医院的发展也面临着信息化的良好机遇。医院管理的计算机化、网络化和数据库化,将成为越
本文介绍了北京天元公司为辽宁联通新时空开发的省级网络管理系统。此系统实现了网管功能的性能管理、故障管理、安全管理、配置管理和运行管理,网管系统能够从多方面、多层次
近年来,随着微机电技术(MEMS)、无线通讯技术和数字电子技术的发展而出现了许多新的信息获取和信息处理方式,无线传感器网络是其中之一。无线传感器网络是无线Ad hoc网络的一个
针对多率系统(Multirate system)的辨识研究多采用传统的递推辨识算法,近年来,随着科学技术和辨识理论的不断进步和发展,对复杂系统辨识方法的探索以及对辨识方法在收敛性、准确
数据仓库是近年来兴起的一种新的数据库技术,它弥补了传统关系型数据库对分析型环境的支持不足,数据仓库面向分析型环境,对企业的分析决策提供了强有力的支持。企业纷纷建立
如何从背景复杂的视频中较为准确地分割得到目标是视频分割研究领域的一个重要问题。目前对视频分割算法的研究已经越来越广泛,主要存在着两大类的分割算法,分别是基于背景建模
网格资源监控是网格动态负载均衡策略的基础,为用户定位故障,分析系统性能提供重要的性能数据,还可以直接供其它应用程序调用以降低程序设计的复杂度,增加应用程序的可移植性
基于构件的软件开发(Component-Based Software Development CBSD)方法是继面向对象的设计方法之后,正在并逐步走向成熟的新的软件开发技术[1]。构件作为对外提供特定服务的