异策略时序差分算法的快速收敛方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:kooksnake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是通过最大化智能体获得的累计奖赏的期望来求解最优策略的机器学习子领域。在求解最优策略过程中,往往会遇到探索和利用的困境。对此,强化学习中提出使用异策略方法来应对这个困境。然而,由于没有考虑行为策略和目标策略状态分布的不一致性,常用的异策略时序差分(Temporal Difference,TD)算法可能出现发散、学出错误策略和收敛速率慢的问题。本文针对这些问题,提出三种使用状态分布修正的异策略TD算法,可以概括为以下三部分:(1)在异策略评估问题中使用函数逼近方法的情形下,TD算法可能出现发散等问题。造成这些问题的直接原因在于行为策略与目标策略的状态分布不一致。针对此问题,根据遍历马尔可夫链(Ergodic Markov chains)具有稳态分布的性质,提出了一种状态分布修正方法,并且和TD(λ)算法结合形成新的算法。最后,通过实验的方式展现了提出的异策略TD算法可以解决由于状态分布不一致带来的问题。(2)重要性采样方法是异策略TD算法中必不可少的一部分,但是重要性采样方法的高方差问题非常常见且对算法的收敛速率影响较大。针对重要性采样方法的高方差问题,提出一种使用经验回放完成状态分布修正的方法。该方法可以避免重要性采样因子被直接用于值函数的更新,从而解决高方差问题。同时,也可以解决由于状态分布不一致带来的问题。(3)针对异策略TD算法可能会出现发散或者收敛速率慢等问题,提出了一种直接使用状态分布比来进行状态分布修正的方法,并且时间复杂度和空间复杂度都优于之前提出的算法。最后,为了消除人为构造的实验环境对于实验公平性的影响,采用了随机构造的MDP实验。实验结果表明提出的算法不但收敛而且比常用的异策略TD算法的收敛速率更快。
其他文献
双向关系是类脑协同学习中一个重要问题,根据人类个体之间的社交和感知产生的各种社会行为,都需要双向关系的支撑。多方面的沟通,会产生大量的用户行为信息,在双向关系中,用
国家公园是俄罗斯最重要的自然保护区之一。国家公园包括自然综合体和自然景物,具有独特的生态、历史、文化价值,以及重要的民族意义。首先,本文给出了俄罗斯生态旅游发展现
随着人们生活水平的不断提升,人们对生活品质和生活环境质量的要求越来越高,在优美而良好的环境中生活可以使人们获得愉悦安宁并激发人的创造潜能,因此良好的景观环境已经成为人的自然需求和现代人居环境的重要指标。近年来,关于景观环境纠纷的问题层出不穷,然而我国还未建立关于景观权的保护制度,使得人们对景观权利的主张陷入无法救济的困境中。基于此,本文通过对景观权私法保护的可行性进行剖析并以此探寻景观权救济的途径
目的本试验以“健脾滋肾息风”法为指导,自拟方剂“三因复眩方”治疗老年病人因后循环缺血引起的眩晕病。通过观察指标、收集数据等方法来评价“三因复眩方”治疗老年人后循环缺血性眩晕病的临床效果。方法收集符合纳入标准的受试者共64例,并按照随机、对照的试验设计原则进行分组(其中试验组32例,对照组32例)。两组受试者均进行后循环缺血的西医常规治疗,在此基础上,对照组采用甲磺酸倍他司汀片(敏使朗)进行干预,试
随着牙槽骨的持续缓慢吸收1,全口义齿经常出现固位不足、稳定性差、黏膜压痛、咀嚼功能降低等问题2’3,严重影响患者的身心健康。全口义齿通常使用五年左右需要重衬4’5,重衬
在自然语言中,事件是一个基本的语义单位,是构成文档的基本要素。事件可信度描述了该事件是确定、否定或者是不确定等情况,表达了人们对该事件内容的态度或看法,即语言文本中
随着汽车、医疗、电子电气、机械制造以及国防航天等领域的快速发展,对高分子材料的性能要求也越来越高。作为高性能工程塑料的半芳香聚酰胺,其具有Tg高、耐高温、吸水率低、
声呐图像配准旨在找到源图像映射到移动图像的最佳全局变换模型,是声呐图像处理的基础环节,也是海洋资源探测的重要技术手段。从图像配准的空间变换参数以及相似度测量两个角
目的:探讨电视纵隔镜手术(Video-mediastinoscopy,VMS)对胸部疾病的诊断价值及学习曲线。方法:2009年1月至2018年6月,我院胸外科单手术组连续完成111例VMS。回顾性分析临床资
企业社会责任战略管理理论的发展和应用,促使企业社会责任管理日趋常态化和规范化。作为企业经营管理战略的一部分,社会责任融入企业生产经营的方方面面,对企业日常经营活动