强化学习问题中的正则化最小二乘策略评价算法的研究

来源 :北京化工大学 | 被引量 : 1次 | 上传用户:tanhuanghehuanggua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
策略评价和学习控制是强化学习问题中两大主要任务。其中策略评价过程是指在给定策略下,对特定起始状态之后可获得的未来奖赏折扣和的期望值做出估计。近年来,许多基于时域差分和值函数逼近的改进策略评价算法被提出,改进的内容包括提高样本利用率、实现参数正则化、以资格迹形式扩展,及应用于离策略问题的扩展等。因此,课题重点研究了提高正则化在线策略评价算法的方法,提出了一系列求解不同类型问题中的特定算法。论文的研究内容分为三个部分:(1)提出了带有梯度修正项的最小二乘时域差分(LS-TDC)策略评价算法,以及基于核方法的KLS-TDC算法。LS-TDC在最小二乘框架下借助梯度修正作用,具有良好的收敛性能。通过采用核方法构造特征函数,KLS-TDC方法具有更好的泛化特性,并且利用近似线性独立性分析,该方法可以自动进行特征函数选择。另外基于KLS-TDC构造了一种用于解决学习控制问题的策略迭代方法。通过在策略和离策略学习问题,以及学习控制问题测试了所提出两种方法的收敛性和参数敏感度。(2)基于多步递推最小二乘技术,提出了一种具有O(n2)复杂度的在线递推LS-TDC方法,称为RC算法。为了进一步提高样本利用率,RC算法进行了带有资格迹形式的扩展。同时为了使RC可以进行离策略学习,利用重要性采样方法对状态分布进行了加权。为了使得RC算法实现具有目标函数意义的正则化,提出了带有正则化更新步骤在线l2-正则化RC算法,使得正则化效果随着样本数量的增加保持不变,参数的变化更加稳定。同时还提出一个计算量更小的等效近似算法FRRC。论文给出了以上所有方法的收敛性分析,并利用在策略和离策略benchmark问题验证了算法的性能和优势。(3)为了实现特征函数选择功能,基于l1-正则化提出了一种带梯度修正项的稀疏化邻近递推最小二乘时域差分算法,称为l1-RC。l1-RC通过求解带有l1-正则化惩罚项的目标函数MSPBE实现稀疏化和正则化,并且在每一时刻的算法复杂度控制在O(n2)。在两步嵌套优化的求解中,RC迭代校正方法用于算子误差步骤(OPE)的优化求解,ADMM方法用于不动点误差步骤(FPE)的优化求解。两步求解过程交替迭代共同寻找最小化目标函数的不动点。论文还给出了l1-RC算法的一些相应扩展,同时应用ODE方法对其收敛性进行了分析,并利用benchmark问题证实了所提出的方法可以得到理想的稀疏解,并证实了其收敛性能优于最新的一阶正则化方法。
其他文献
讨论法的运用是突出学生主体意识的重要过程 ,进而减少甚至不对教师有依赖性 ;讨论法是引导和鼓励学生进行创造性思维的重要活动。教师依据教学目标、教学内容、课型特点和学
三叉神经痛是最常见的面部神经痛,其发病机制尚不明确,治疗方式复杂多样。近年来针灸治疗三叉神经痛是临床关注的热点之一,且有着不可忽视的作用。但目前有取穴原则杂乱不规
患者,女,28岁,已婚,农民,孕3产0,因停经16余周,持续性下腹痛7 h,加重2 h,门诊拟诊"中期妊娠,先兆流产(晚期),腹痛原因待查"于2004年1月5日4:30收入院.患者平素月经规律,末次
目的探究分析在心脑血管疾病患者中做好护理干预对其生存质量的影响。方法从2018年1月至2018年12月我院内科收治的心脑血管疾病患者中抽选198例,采用数字随机分配法将其分为
目的:探讨血浆置换联合其他免疫治疗对难治性重症抗N-甲基-D-天冬氨酸受体(抗NMDA受体)脑炎的临床疗效及安全性。方法:收集广西医科大学第一附属医院、第二附属医院自2015年1月至2018年12月收治的16例难治性重症抗NMDA受体脑炎患者的临床资料,包括基本信息、临床表现、辅助检查、治疗情况、不良反应及预后(改良Rankin评分),进行回顾性分析。16例患者CSF抗NMDA受体抗体均呈阳性,其
目的:探讨三维动脉自旋标记技术(Three-dimensional arterial spin labeling,3D-ASL)在缺血性脑梗死中的应用价值。材料与方法:收集本院2017年3月至2018年1月可疑缺血性脑梗
<正>在中国一路高歌猛进的快时尚们现在日子没那么好过了。快时尚市场不再是集体繁荣——ZARA、H&M和Gap持续进行策略调整,另一些快时尚品牌则陷入业绩泥潭。在竞争日益激烈
随着济南市旅游业的发展,济南市旅游法制建设取得了一定的成就,法规调整的范围基本符合旅游业的实际状况,旅游业发展中出现的新问题基本能在旅游法规中有所体现。但是随着旅游业
城市土地储备面临大额资金需求,有必要减少对银行信贷的过度依赖。在国家禁止信托资金以债权形式用于土地储备的情况下,相较于利用外资、股权等融资工具,信托投资基金更具备
第一部分白介素-33在脑出血后作用及其潜在性机制研究目的:白介素-33(IL-33)是最新识别的属于IL-1家族的细胞因子,它通过与异二聚体复合物ST2L/IL-1RAcP相结合形成异三聚体复