基于泛函梯度的策略梯度方法的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:pipiskin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是机器学习的重要研究方向之一,旨在使智能体通过与环境交互,不断改进自身策略,最大化收到的累计奖赏。经典的强化学习方法多基于值函数,但是基于值函数的方法对于连续动作的任务难以处理,并且有"策略退化"现象。因此近些年来基于策略搜索的方法得到显著发展。策略梯度方法是策略搜索的一类重要方法,基于策略参数梯度来更新策略。在策略梯度方法中,策略往往使用线性模型表示,导致系统受到线性模型表示能力有限的约束。而泛函梯度在监督学习中能够用于产生非参模型,基于泛函梯度的Boosting类方法已成为监督学习代表性方法之一。然而泛函梯度在强化学习中研究较少。本文就泛函梯度在策略梯度方法中的使用开展研究,主要作出了以下工作:首先,设计了基于泛函梯度的策略梯度方法PolicyBoost,可学习决策树等复杂模型的组合,避免了以往需要手动设计线性特征的缺点。其次,本文证明了在一定条件下,PolicyBoost的收敛性。针对理论分析得到可能出现的过拟合现象,通过引入基线和构建采样池,缓解了过拟合的问题。最后,本文在强化学习中的经典任务Mountain Car、Acrobot、以及具有挑战性的直升机悬停控制任务的实验,验证了提出的算法效果优良并且稳定。
其他文献
随着计算机和网络技术的飞速发展和普及,信息系统安全成为当前研究的热点课题。而数据库作为信息的载体,其安全自然成为信息安全研究领域一个非常重要的方面。数据库的安全保护
由于目前主流厂商提供的服务集成的J2EE平台昂贵的成本,以及EJB机制的侵入性,强制的编程规范,很多企业级应用软件的开发需要更轻量级的容器,更少的代码侵入性,更高的组件重用性,更
为了解决利用增值税专用发票偷税骗税的问题,我国开始研制推广增值税防伪税控系统。防伪税控系统集计算机、微电子、光电技术以及数据加密等技术为一体。取消了手工开票的方法
在当今社会“互联网+”的新常态下,网络和传统产业的融合日益紧密,计算技术的发展也在快速改变人们曾习以为常的生活和生产形态。健康和医疗领域就是体现这一改变的典型应用。
新一代语义Web的目标是通过领域本体提供一个共享的和共同的领域理论实现智能的人机交互,计算机之间的互操作和计算机系统中的知识重用。语义Web的发展和标准本体描述语言(OWL
随着Web的迅速发展,Web上的信息越来越丰富.Web使用方便、信息丰富,人们越来越多的使用Web来寻找需要的信息.为了更好的使用Web上的信息,人们也不断的追求能够有效组织和利用
本文对如何开发一套适用于广大普通用户、具有搞性价比的以太话机的问题展开研究,深入分析了SIP协议的基本框架和协议过程,根据嵌入式系统资源有限和无操作系统支持的特点,设计
统计学习理论是一种专门研究有限样本情况下机器学习规律的理论。在此理论框架下产生的支持向量机(SVM)方法,使抽象的统计学习理论转化为实际的学习方法。然而,由于SVM尚处于发
在信息技术高速发展的今天,软件已经成为计算机系统的主要使能部件。但同时,软件由于自身存在的漏洞被利用于攻击,造成严重后果的事件也层出不穷。这对软件安全提出了新的挑
信用风险是金融市场最古老的也是最主要的金融风险之一,它直接影响着现代经济生活中的各项活动,也影响着一个国家的宏观决策和经济发展,甚至影响着全球经济的稳定发展。 在国