时序差分学习在非完备信息机器博弈中的应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:allviolet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
完备信息博弈已经有很多应用比较成功的解决方案。当电脑走棋的时候,根据当前棋局创建一个部分的博弈树,利用估值函数对叶结点进行估值,通过估值的结果来进行极大极小值搜索,找到一个在根结点的最佳走步。这是很多的人工智能程序的核心架构。然而,迄今为止非完备信息下的非常成功的人工智能博弈程序很少。非完备信息博弈问题的解决技术和完备信息有很大的差异,应用于完备信息的技术不一定能够成功的应用到非完备信息博弈中。  在非完备信息博弈中,博弈双方仅拥有当前游戏状态的部分知识。在信息不明了的情况下,随机策略成为一个可行的选择。例如,对于桥牌游戏来讲,在评估玩家的出牌时,蒙特卡罗技术对各张看不到的牌进行抽样,随机的确定这些牌的种类,然后对获得的完备信息牌局进行极大极小值搜索,就好像每个玩家都知道所有的牌是什么一样。上述过程多次进行,选择平均来说最好的出牌。  时序差分学习是机器学习领域强化学习技术的一种。传统的学习技术通过预测值和真实结果之间的差值来调整描述状态的各种参数,而时序差分学习根据连续的预测之间的差值来调整。对现实生活中的大多数预测问题来说,时序差分相对于传统方法而言需要更少的内存,更低的计算时间复杂度。时序差分侧重于对运算效率的提升,结果和传统学习方法比较接近。  本文探讨了时序差分学习在非完备信息机器博弈估值函数中的应用,并基于该算法结合蒙特卡罗抽样技术实现了一个具有自学习能力的四国军棋博弈系统。本文的主要研究成果和创新之处在于:  1.进一步扩充和精确化了四国军旗博弈中的蒙特卡罗抽样技术;  2.在已有四国军旗系统搜索框架的基础上,对估值函数、搜索算法等进行了优化,实现了适用于四国军棋游戏的历史启发搜索算法,大大提高了搜索速度;  3.实现了四国军旗系统中基于时序差分学习的估值函数,可以动态调整智能体的行为。
其他文献
语义网提出以来,本体(ontology)正在成为人工智能和知识工程中的一种重要工具,在知识的获取、表示、分析和应用等方面具有重要的意义。其中,本体的构建与扩展是本体研究的核心和
课程编排对每个大学的管理部门来说都是每个学期不得不面对的一个挑战。大学课程编排问题是一个NP完全问题。对大多数大学教育机构来说,课程编排是最普通最难的问题之一。课程
网页和纯文本的结构差异性决定了传统的信息检索排序算法不能完全适应网络发展,基于链接分析的网页排序算法便应运而生,并成为现代搜索引擎的关键技术。知名的搜索引擎公司在对
本文从研究和设计的角度出发,对微博检索系统的相关理论与技术对比分析,提出改进,主要的改进工作为:第一,从伪相关反馈扩展角度出发,每个反馈的文档依据查询事件的爆发时间分布具
生物特征识别的几个重要步骤是:预处理、特征抽取、分类。而特征抽取在生物特征识别的过程中占有重要的地位。投影分析方法是常见的一类特征抽取方法。常见的投影分析方法有很
自然语言理解是计算机科学领域与人工智能领域中的一个重要方向,它主要研究用自然语言在人与计算机之间进行有效交流的理论和方法。计算机理解自然语言的前提条件是能够对自然
随着网络的普及和Web技术的不断创新,管理信息系统(MIS)的体系架构发生了重大的变化,从两层的C/S架构发展到三层的C/S/S或B/S/S架构.由于C/S/S本身的局限性, B/S/S架构的系统
随着无线技术的发展,无线网络速度的逐步提高,移动互联网的使用范围也逐渐扩大。安卓以及i OS技术越来越收到人们的追捧,成为移动互联网领域的热议技术。并且跨平台的HTML5已
文本分类最初是应文本信息检索的要求出现的,但是随着文本数据的激增,传统的分类研究方法己经不适合大规模文本分类,于是文本数据挖掘应运而生。作为文本数据挖掘的一个重要
随着多媒体计算机的迅速发展,计算机与人的交流日益增加,而人的面部传递着人类最广泛的信息,如情感、精神状态等,虽然每个人脸部特征很相似,但却有不同的表情特征,于是人脸建模与动