强化学习中离策略算法的分析及研究

来源 :苏州大学 | 被引量 : 9次 | 上传用户:jackyzero123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种通过与环境进行“试错”交互寻找能够带来最大期望累积奖赏策略的学习方法。根据学习过程中行为策略与目标策略是否一致,强化学习方法分为在策略算法和离策略算法。与在策略算法相比,离策略算法具有更加广泛的应用范围,离策略算法已经成为当前强化学习领域的一个研究热点。本文针对当前离策略算法研究中难以收敛、收敛速度慢以及收敛精度低的问题展开分析,并提出一系列解决方案。本文主要研究内容包括以下四部分:(1)提出一种基于线性函数逼近的离策略Q(λ)算法,该算法通过引入重要性关联因子,在迭代次数逐步增长的过程中,使得在策略与离策略相统一,确保算法的收敛性。同时在保证在策略与离策略的样本数据一致性的前提下,对算法的收敛性给予理论证明。(2)从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error快速Q(λ)学习算法——SOE FQ (λ)。该算法利用二阶TD Error修正Q值函数,并通过资格迹将TD Error传播至整个状态动作空间,加快算法的收敛速度。在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于1γ、ε11。(3)提出在学习过程中通过迁移值函数信息,减少算法收敛所需要的样本数量,加快算法的收敛速度。基于强化学习中经典的离策略Q-Learning算法的学习框架,结合值函数迁移方法,优化算法初始值函数的设置,提出一种新的基于值函数迁移的快速Q-Learning算法——VFT-Q-Learning。该算法在执行前期,通过引入自模拟度量方法,在状态空间以及动作空间一致的情况下,对目标任务中的状态与历史任务中的状态之间的距离进行度量,对其中相似并满足一定条件的状态进行值函数迁移,而后再通过学习算法进行学习。(4)针对大规模状态空间或者连续状态空间、确定环境问题中的探索和利用的平衡问题,提出一种基于高斯过程的离策略近似策略迭代算法。该算法利用高斯过程对带参的值函数进行建模,结合重要性关联因子构建生成模型,根据贝叶斯推理,求解值函数的后验分布。且在学习过程中,根据值函数的概率分布,求解动作的信息价值增益,结合值函数的期望值,选择相应的动作。在一定程度上,该算法可以解决探索和利用的平衡问题,加快算法的收敛速度。
其他文献
质量工程是高等教育大众化背景下提高高等学校教学质量的重大工程。本文从基层高职院校的视角,指出质量工程建设中存在的主要问题并分析其原因,提出加强质量工程建设的对策与
目的:通过肺动脉、支气管动脉造影分析慢性肺动脉栓塞后咯血的原因,并探讨对其介入治疗的安全性和有效性。材料和方法:CT和导管法肺动脉造影证实的慢性肺栓塞13例,其中伴咯血7例(
本文分析了挤塑聚苯板的特性,从系统构造、材料性能要求等方面总结了挤塑聚苯板薄抹灰外墙外保温系统的应用技术,探讨了挤塑聚苯板薄抹灰外墙外保温系统应用过程中存在的问题
【裁判要旨】以胁迫手段订立的合同,因为损害国家利益、意思表示不真实而无效或可以撤销,但认定影响合同效力的胁迫,应当同时具备胁迫故意、胁迫行为、违法性以及因果关系四
近些年来,我国的城市化进程不断加快,建筑行业也随之飞速的发展,建筑行业的规模正在不断扩大。但是随着我国建筑行业的不断发展,相伴而来的问题也有很多。本文结合自身相关工
研究目的:为了验证委内瑞拉北部铁路用wT-1型扣件系统的各项性能是否符合其设计技术条件,本文参照《铁路应用一轨道一扣件系统试验方法》(EN 13146:2002),对wT-1型扣件系统进行纵向
近代以来各省地方纷繁复杂的货币种类及度量衡差异,使得中国近代财政史研究需要正视并解决财政统计中的货币换算问题。以清末财政清理中1908年22省财政统计为实例的分析可知,
研究目的:山区铁路、公路工程项目建设中,进行不良地质调查是工程地质勘察的重要内容之一,目的是确定线路附近不良地质的分布范围、规模大小及其对工程危害和影响大小.传统的