论文部分内容阅读
目前,以人工智能为中心的游戏受到人们的普遍青睐。本文针对中国跳棋游戏,将人工智能领域中的增强学习技术应用到其中,构建了一个具有智能决策和自主学习能力的多人跳棋博弈系统。系统的体系结构不同于传统的跳棋游戏,它是一种基于传统游戏模式的扩展型系统。系统按功能界面划分为三个部分:测试子系统、机器自学习子系统和人机对弈子系统。在博弈系统建立的初期,为了阶段性地了解系统的构建过程中各组件之间的协调工作情况,一个测试子系统被首先建立起来。机器自学习子系统主要进行博弈主体的自主学习,通过对弈的交互过程不断积累经验,提高下棋的能力。机器自学习子系统实现了机器自对弈训练模式和人机对弈训练模式。通过在人机对弈训练模式中观察人的开局方式,系统建立了一个开局策略知识库并在对弈过程中综合运用。基于增强学习和反向传播算法的原理,机器的自对弈训练模式通过自对弈的在线学习方式不断提高利用神经网络实现的非线性棋局评估函数的准确度,进而完善自身的对弈能力。人机对弈界面主要利用机器自学习子系统中学习到的不同等级的对弈模型来实现多游戏者的人机对弈。在系统的设计方面,主要讨论了棋盘和博弈主体的设计思想。在棋盘设计中,给出了一个棋盘的构造模型,提出了棋盘分区的概念和游戏运行阶段的定义。在博弈主体的设计中,确定了主体的慎思结构,提出了一个主体的智能决策学习模型并详细讨论了各主要部件的功能,给出了神经网络棋局评估学习器的网络结构和训练过程中可选取的棋盘特征。在系统的实现方面,利用VC++的MFC并基于面向主体的编程思想构建了一个的多文档类型的应用程序。在文章的最后,针对中国跳棋游戏的特点,从思考人对弈的角度出发,探讨一个有限理性的慎思主体如何能够通过交互下棋过程观察并学习人类对手的行棋模式,进而综合运用它来指导博弈过程的可扩展原型。整个原型构成了一个初步的可进一步深入研究的框架,并在阐述的过程中提到了一些有针对性的问题以供参考和探究。提出了一个博弈主体用于决策的布阵图模型,并概述了其利用布阵图进行决策的步骤。