基于一般化斜投影的异策略时序差分学习算法

来源 :南京大学学报(自然科学) | 被引量 : 0次 | 上传用户:lvbei2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在强化学习的值函数线性估计问题中,时序差分不动点解和贝尔曼残差的方法都是对真实值函数的斜投影,然而这两种解经证明都不是最优解.通过对两种投影进行加权平均,提出了一种一般化的斜投影算子.基于此推导出两种残差时序差分学习算法,并给出了这两种算法在异策略下的收敛性证明.在著名的Baird的异策略反例实验上,与相关算法进行了对比,实验结果验证了所提算法的正确性和有效性.
其他文献
随着信息技术的不断发展,智能变电站的出现对电力系统的继电保护装置提出了更高的要求,为此本文对基于继电器保护系统的智能变电站进行改革。首先利用继电器保护系统监测变电
魏晋南北朝时期,匈奴、鲜卑、羯、氐、羌等北方民族的历史是以大迁徙、大融合为其主要特征的。在这一大迁徙、大融合的浪潮中,一些民族登上历史舞台,谱写了壮丽的历史画卷。
目的评价外展外旋位MR关节成像(ABER)在非外伤性、多方向的肩关节不稳定(MDI)中的诊断征象及关节囊松弛度的测量指标。方法由3名放射科医师选出20例临
<正> 一般来看,绝大多数学生两手的灵活性都有明显差异,普遍是右手好于左手。学校体育课的内容除了游泳、体操是两手同时运动外,其它项目多是以单侧运动为主的项目。上体育课
目的探析针对重度脑出血患者采取延续性康复护理进行干预的影响效果。方法选取80例重度脑出血患者,收诊时间为2018年6月~2019年5月,将研究对象随机分为对照组40例和观察组40
外商直接投资(FDI)对中国技术进步的促进效应近年来受到颇多怀疑和争议。对中国利用FDI的技术溢出效应进行实证量化研究,证明“以市场换技术”的FDI战略并未收到成效。加大投入
河道管理范围内建设项目关系河道防洪安全和经济发展大局。针对目前河南省河道管理范围内建设项目现状及存在的问题,探讨分析了如何加强河道范围内建设项目管理,确保河道防洪
区域差异所导致的系统性风险会在经济出现周期性波动过程中被放大,延缓经济恢复增长的时间,并进一步扩大区域增长差异。区域经济增长差异逐渐拉大在我国是一个普遍的现实问题,会
目的仔细探究帕罗西汀与奥氮平联合治疗抑郁症合并睡眠障碍患者的疗效及不良反应研究,按照两种治疗方式进行分析,最后找到最合适的治疗方案。方法回顾性分析选择本院自2016年
<正> 上海农学院为了更有效地增强学生体质,从八二届学生开始将原每周一次100分钟的体育课改为每周三次,每次50分钟,并合理安排了授课的间隔时间。这一改革的实践证明,在大学