强化学习方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:chyanzmr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本硕士论文中主要探讨了强化学习中的两个方法。一个是基于图模型的关系强化学习方法,另一个是结合核函数的函数估计方法。前者重点解决关系模型下先验规则的学习筛选。后者试图寻求自动的特征选择和学习来统一解决具有关系特征的问题和传统的强化学习问题。在强化学习中,有一类具有关系特征的问题往往难以用传统的基于表格的强化学习方法求解,最简单的例子就是Blocks World问题。这样的问题状态空间增长十分迅速,而空间遍历却越来越困难。对于这类问题,基于符号逻辑的策略表示体现出巨大的优势,也就是在强化学习中使用一介逻辑表示状态空间和动作空间。通过这种方式,问题的表示变得更为抽象,并且在这中表示下状态空间得到巨大的约减。这种强化学习问题被称为关系强化学习,也是本论文关注的问题之一。在关系强化学习的研究中,我们尝试了将图模型应用到策略表示和学习中,并提出了结合图模型的策略梯度上升方法。在Blocks World上的实验表明了图模型方法在给定先验知识的情况下能够快速的选择和优化知识从而达到最优或接近最优的策略。鉴于图模型方法中的规则需要手工给出,这不利于很多问题的求解,因为往往先验知识是困乏或者不充分的,这样学习的效果会很不理想。所以我们在论文的第五章探讨了如何使用核方法来自动的抽取特征并估计值函数。虽然目前我们还未能在关系强化学习问题上使用本文提出的核方法,但在传统的Mountain Car以及Acrobot问题上核方法的表现十分优异,效果较基于Tile Coding的函数估计方法优势明显。从目前的研究结果来看,核方法相较于图模型方法具有更大的挖掘潜力,我们还需要投入更多的精力和时间来增强核方法的适应能力和计算效率。
其他文献
软件技术的快速发展为人民的日常生活、社会生产等带来了巨大的便利和进步,已成为现代社会发展中不可或缺的支撑力量。然而,随着经济与社会的迅猛发展,人们对于已有软件系统的功
计算机技术的发展给三维设计领域带来了一系列革命性变化,但软件系统专业而复杂的人机交互方式阻碍了设计师创作思维的流畅发挥,在一定程度上弱化了设计创意在三维建模中的作用
目前,无线局域网的通用标准是由IEEE制定的802.11标准。该标准定义了无线局域网媒体访问控制(MAC)和物理层规范。在标准中,访问无线信道的基本机制是基于载波侦听多路访问/冲
机器人,是多学科交叉与融合的结晶,计算机技术、人工智能、材料学、网络通信等技术的飞速发展,也推动着机器人技术的不断前进。而仿人机器人,这个人类最初的梦想,是机器人发
航拍图像处理系统是一款针对航空采集的影像进行处理并能生成处理报告进行分发的图像信息综合处理系统。所处理的类型有CCD图像、红外图像、雷达图像等。所包含的模块有图像
学位
功能磁共振成像(fMRI)研究表明静息状态下功能相关的脑区间存在着低频、同步的自发神经活动,而且这种同步活动具有重要的生理意义。本研究组在静息态fMRI的计算方法与应用领域
样条函数,就是具有一定光滑性的分段函数。样条在函数逼近、计算几何、计算机辅助几何设计、有限元等领域中有广泛的应用.同时样条函数又是散乱数据插值和拟合中常用的方法之
随着网络用户的快速增长,网络拥塞问题日趋严重。拥塞控制机制是提供数据流的传输速度与网络所能提供的可利用带宽有效匹配的保证。在网络中间节点实施的主动队列管理算法(AQ
随着社会的进步和人们生活水平的提高,人们更加注重生活质量,要求住宅更加安全、方便和舒适,智能家居的概念应运而生。智能家居(Smart Home)的基本构建单元是住宅,利用综合布线技