基于增强学习的博弈主体的研究

被引量 : 0次 | 上传用户:spirit_if
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,以人工智能为中心的游戏受到人们的普遍青睐。本文针对中国跳棋游戏,将人工智能领域中的增强学习技术应用到其中,构建了一个具有智能决策和自主学习能力的多人跳棋博弈系统。系统的体系结构不同于传统的跳棋游戏,它是一种基于传统游戏模式的扩展型系统。系统按功能界面划分为三个部分:测试子系统、机器自学习子系统和人机对弈子系统。在博弈系统建立的初期,为了阶段性地了解系统的构建过程中各组件之间的协调工作情况,一个测试子系统被首先建立起来。机器自学习子系统主要进行博弈主体的自主学习,通过对弈的交互过程不断积累经验,提高下棋的能力。机器自学习子系统实现了机器自对弈训练模式和人机对弈训练模式。通过在人机对弈训练模式中观察人的开局方式,系统建立了一个开局策略知识库并在对弈过程中综合运用。基于增强学习和反向传播算法的原理,机器的自对弈训练模式通过自对弈的在线学习方式不断提高利用神经网络实现的非线性棋局评估函数的准确度,进而完善自身的对弈能力。人机对弈界面主要利用机器自学习子系统中学习到的不同等级的对弈模型来实现多游戏者的人机对弈。在系统的设计方面,主要讨论了棋盘和博弈主体的设计思想。在棋盘设计中,给出了一个棋盘的构造模型,提出了棋盘分区的概念和游戏运行阶段的定义。在博弈主体的设计中,确定了主体的慎思结构,提出了一个主体的智能决策学习模型并详细讨论了各主要部件的功能,给出了神经网络棋局评估学习器的网络结构和训练过程中可选取的棋盘特征。在系统的实现方面,利用VC++的MFC并基于面向主体的编程思想构建了一个的多文档类型的应用程序。在文章的最后,针对中国跳棋游戏的特点,从思考人对弈的角度出发,探讨一个有限理性的慎思主体如何能够通过交互下棋过程观察并学习人类对手的行棋模式,进而综合运用它来指导博弈过程的可扩展原型。整个原型构成了一个初步的可进一步深入研究的框架,并在阐述的过程中提到了一些有针对性的问题以供参考和探究。提出了一个博弈主体用于决策的布阵图模型,并概述了其利用布阵图进行决策的步骤。
其他文献
背景:逆向工程技术在外科手术中的应用越来越广泛,如何快速、高效地制作出满足快速原型加工所需的模型越来越受到医务人员的关注. 目的:在对常用曲面重构方法建模技术进行总结
篮球运动自1891年起源于美国,现已经成为世界人民喜爱的运动项目之一,随着篮球运动在世界范围内的不断普及和发展,世界篮球运动水平得到了很大的提高,篮球比赛更加精彩激烈。21世
通过分析世界杯《豪门盛宴》节目的高清直播以及4K录制的方案,探讨现阶段大型综艺节目采用高清兼容4K、虚拟场景特效等技术的制作模式。
在城市化进程中,公共交通将占据越来越重要的地位,而城市轨道交通因为其对环境污染小、快速、准时、乘坐舒适等诸多优点,而备受青睐,必将成为未来中国城市化进程的强力助推器。目
预应力管桩复合地基作为刚性桩复合地基的一种重要形式,因其施工速度快、质量可靠、地区适应性强、抗震性好等诸多优点而在工程建设中得到了越来越广泛的应用,有着广阔的发展前
<正>现有的空调器,一般都采用制冷剂和压缩机等,经工作后可以有效地改变环境温度,但其耗电大、价格贵.电风扇的工作只能导致室内的空气流动,并不能给人以凉爽的感觉.本实用新
<正> 门静脉高压症是一组由门静脉压力增高引起的症候群,绝大多数患者由肝硬化引起。近10年来门脉高压症的发病机制研究在病理生理学、病理学以及细胞分子理论方面取得了很大
笔者综合欧洲肠外肠内营养学会最新发布的肝病肠外营养指南、ICU肠外营养指南和近期相关文献,着重简述了肝衰竭和失代偿期肝硬化患者肠外营养指证、时机、要点和注意事项等,
随着我国经济发展及行业竞争的加剧,为了不断适应环境的要求,企业必须建立并及时调整自己的营销渠道管理模式,以提高企业的竞争能力。为成长中的HL公司找到最优营销渠道模式并提