基于泛函梯度的策略梯度方法的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：pipiskin

【摘要】

：

强化学习是机器学习的重要研究方向之一,旨在使智能体通过与环境交互,不断改进自身策略,最大化收到的累计奖赏。经典的强化学习方法多基于值函数,但是基于值函数的方法对于连

【作者】

：

侯鹏飞

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2017年期

【关键词】

：

强化学习策略梯度 Boosting 收敛性过拟合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是机器学习的重要研究方向之一,旨在使智能体通过与环境交互,不断改进自身策略,最大化收到的累计奖赏。经典的强化学习方法多基于值函数,但是基于值函数的方法对于连续动作的任务难以处理,并且有"策略退化"现象。因此近些年来基于策略搜索的方法得到显著发展。策略梯度方法是策略搜索的一类重要方法,基于策略参数梯度来更新策略。在策略梯度方法中,策略往往使用线性模型表示,导致系统受到线性模型表示能力有限的约束。而泛函梯度在监督学习中能够用于产生非参模型,基于泛函梯度的Boosting类方法已成为监督学习代表性方法之一。然而泛函梯度在强化学习中研究较少。本文就泛函梯度在策略梯度方法中的使用开展研究,主要作出了以下工作:首先,设计了基于泛函梯度的策略梯度方法PolicyBoost,可学习决策树等复杂模型的组合,避免了以往需要手动设计线性特征的缺点。其次,本文证明了在一定条件下,PolicyBoost的收敛性。针对理论分析得到可能出现的过拟合现象,通过引入基线和构建采样池,缓解了过拟合的问题。最后,本文在强化学习中的经典任务Mountain Car、Acrobot、以及具有挑战性的直升机悬停控制任务的实验,验证了提出的算法效果优良并且稳定。

其他文献

增强型安全Oracle的设计与实现

随着计算机和网络技术的飞速发展和普及，信息系统安全成为当前研究的热点课题。而数据库作为信息的载体，其安全自然成为信息安全研究领域一个非常重要的方面。数据库的安全保护

学位

信息系统系统安全网络环境数据库系统

J2EE系统架构和设计——星际短信平台Web管理系统

由于目前主流厂商提供的服务集成的J2EE平台昂贵的成本，以及EJB机制的侵入性，强制的编程规范，很多企业级应用软件的开发需要更轻量级的容器，更少的代码侵入性，更高的组件重用性，更

学位

J2EE短信平台系统架构Web管理系统软件开发

基于面向对象技术的税控器管理系统

为了解决利用增值税专用发票偷税骗税的问题，我国开始研制推广增值税防伪税控系统。防伪税控系统集计算机、微电子、光电技术以及数据加密等技术为一体。取消了手工开票的方法

学位

税控收款机税控器宿主机税控IC卡税控码面向对象

健康云服务平台可信扩展与身份认证的应用研究

在当今社会“互联网+”的新常态下，网络和传统产业的融合日益紧密，计算技术的发展也在快速改变人们曾习以为常的生活和生产形态。健康和医疗领域就是体现这一改变的典型应用。

学位

电子健康可信云计算身份认证生物特征识别

Web环境中不同格式数据源的领域本体提取方法的研究

新一代语义Web的目标是通过领域本体提供一个共享的和共同的领域理论实现智能的人机交互，计算机之间的互操作和计算机系统中的知识重用。语义Web的发展和标准本体描述语言(OWL

学位

领域本体领域本体语义距离相似模型语义距离相似模型语义相似性分析方法语义相似性分析方法模式描述子模式描述子聚类分析聚类分析描述逻辑描述逻辑语义查询语

基于网页的信息系统的一种预处理过程

随着Web的迅速发展,Web上的信息越来越丰富.Web使用方便、信息丰富,人们越来越多的使用Web来寻找需要的信息.为了更好的使用Web上的信息,人们也不断的追求能够有效组织和利用

学位

万维网数据预处理数据净化近似网页识别元数据提取

嵌入式以太话机的SIP协议栈的优化设计与实现

本文对如何开发一套适用于广大普通用户、具有搞性价比的以太话机的问题展开研究，深入分析了SIP协议的基本框架和协议过程，根据嵌入式系统资源有限和无操作系统支持的特点，设计

学位

网络协议电话以太话机会话描述协议协议栈嵌入式系统

支撑向量机及其应用研究

统计学习理论是一种专门研究有限样本情况下机器学习规律的理论。在此理论框架下产生的支持向量机(SVM)方法，使抽象的统计学习理论转化为实际的学习方法。然而，由于SVM尚处于发

学位

统计学习支持向量机算子方程数据处理石油地震数据地震正演模拟

缓冲区溢出漏洞精准检测技术研究

在信息技术高速发展的今天,软件已经成为计算机系统的主要使能部件。但同时,软件由于自身存在的漏洞被利用于攻击,造成严重后果的事件也层出不穷。这对软件安全提出了新的挑

学位

缓冲区溢出静态分析检测警报处理

神经网络技术在信用评级中的应用研究

信用风险是金融市场最古老的也是最主要的金融风险之一，它直接影响着现代经济生活中的各项活动，也影响着一个国家的宏观决策和经济发展，甚至影响着全球经济的稳定发展。在国

学位

人工神经网络BP算法信用评级指标体系信用风险金融风险风险管理

基于泛函梯度的策略梯度方法的研究

与本文相关的学术论文