基于一般化斜投影的异策略时序差分学习算法

来源 :南京大学学报(自然科学) | 被引量 : 0次 | 上传用户：lvbei2008

【摘要】

：

在强化学习的值函数线性估计问题中,时序差分不动点解和贝尔曼残差的方法都是对真实值函数的斜投影,然而这两种解经证明都不是最优解.通过对两种投影进行加权平均,提出了一种

【作者】

：

吴毓双陈筱语马静雯陈兴国

【机构】

：

南京邮电大学贝尔英才学院,南京邮电大学计算机学院,南京大学计算机软件新技术国家重点实验室

【出处】

：

南京大学学报(自然科学)

【发表日期】

：

2017年06期

【关键词】

：

强化学习线性函数估计斜投影异策略时序差分学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在强化学习的值函数线性估计问题中,时序差分不动点解和贝尔曼残差的方法都是对真实值函数的斜投影,然而这两种解经证明都不是最优解.通过对两种投影进行加权平均,提出了一种一般化的斜投影算子.基于此推导出两种残差时序差分学习算法,并给出了这两种算法在异策略下的收敛性证明.在著名的Baird的异策略反例实验上,与相关算法进行了对比,实验结果验证了所提算法的正确性和有效性.

其他文献

基于继电器保护系统的智能变电站改革研究

随着信息技术的不断发展,智能变电站的出现对电力系统的继电保护装置提出了更高的要求,为此本文对基于继电器保护系统的智能变电站进行改革。首先利用继电器保护系统监测变电

期刊

继电保护智能变电站采样监测优化relay protectionintelligent substationsamplingmonitoring opti

魏晋南北朝时期北方民族与民族关系研究(上)

魏晋南北朝时期,匈奴、鲜卑、羯、氐、羌等北方民族的历史是以大迁徙、大融合为其主要特征的。在这一大迁徙、大融合的浪潮中,一些民族登上历史舞台,谱写了壮丽的历史画卷。

期刊

魏晋南北朝北方民族民族关系

外展外旋位MR关节成像评估非外伤性、多方向的肩关节不稳定

目的评价外展外旋位MR关节成像(ABER)在非外伤性、多方向的肩关节不稳定(MDI)中的诊断征象及关节囊松弛度的测量指标。方法由3名放射科医师选出20例临

期刊

MRI关节照相术肩部联合不稳定韧带关节

要加强左手的锻炼

<正> 一般来看,绝大多数学生两手的灵活性都有明显差异,普遍是右手好于左手。学校体育课的内容除了游泳、体操是两手同时运动外,其它项目多是以单侧运动为主的项目。上体育课

期刊

侧运动大脑两半球结构能力体全左手持空闻空间造型逻辑推理能力使人造型结构

延续性康复护理对重度脑出血患者术后神经功能及生活质量的影响评价

目的探析针对重度脑出血患者采取延续性康复护理进行干预的影响效果。方法选取80例重度脑出血患者,收诊时间为2018年6月~2019年5月,将研究对象随机分为对照组40例和观察组40

期刊

延续性康复护理重度脑出血神经功能生活质量

中国利用FDI的技术溢出效应实证研究

外商直接投资（FDI）对中国技术进步的促进效应近年来受到颇多怀疑和争议。对中国利用FDI的技术溢出效应进行实证量化研究，证明“以市场换技术”的FDI战略并未收到成效。加大投入

期刊

外商直接投资技术溢出效应经济增长全要素生产率FDI technology spillover effect economic growth tot

河道管理范围内建设项目管理的问题及建议

河道管理范围内建设项目关系河道防洪安全和经济发展大局。针对目前河南省河道管理范围内建设项目现状及存在的问题,探讨分析了如何加强河道范围内建设项目管理,确保河道防洪

期刊

河道建设项目管理防洪

金融危机下应对区域增长差异的财政政策——以层次分析法（AHP）对个案的研究

区域差异所导致的系统性风险会在经济出现周期性波动过程中被放大，延缓经济恢复增长的时间，并进一步扩大区域增长差异。区域经济增长差异逐渐拉大在我国是一个普遍的现实问题，会

期刊

金融危机区域增长差异财政政策层次分析法financial crisis regional difference in growth fiscal pol

帕罗西汀与奥氮平联合治疗抑郁症合并睡眠障碍患者的疗效及不良反应研究

目的仔细探究帕罗西汀与奥氮平联合治疗抑郁症合并睡眠障碍患者的疗效及不良反应研究,按照两种治疗方式进行分析,最后找到最合适的治疗方案。方法回顾性分析选择本院自2016年

期刊

帕罗西汀奥氮平抑郁症合并睡眠障碍

对体育课进行改革的做法与设想

<正> 上海农学院为了更有效地增强学生体质,从八二届学生开始将原每周一次100分钟的体育课改为每周三次,每次50分钟,并合理安排了授课的间隔时间。这一改革的实践证明,在大学

期刊

体育师资场地器材实践证明间隔时间锻炼项目身体素质体育理论体育考试学习负担普修

基于一般化斜投影的异策略时序差分学习算法

与本文相关的学术论文