连续空间强化学习研究

来源 :电子科技大学 | 被引量 : 13次 | 上传用户:spaiwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一类求解序贯决策问题的重要方法,强化学习因其独特的无教师自主学习机制而倍受关注。尽管强化学习近年来已取得了较大进展,但在求解具有连续状态和动作空间的实际问题时仍面临诸多挑战,例如易遭受维数灾难和学习效率不高。为此,本文对连续空间强化学习展开研究,主要工作和创新概述如下:(1)针对现有线性局部逼近时域差分(Temporal Difference,TD)学习算法大多不能对连续状态空间自适应表示和对连续动作策略精确求解两大问题,提出一种增量最近邻TD学习框架,并就各关键部分给出多种定义方案。所提框架建立在相邻状态的值函数与策略通常具有较高的相似性这一规律之上,通过在线选取部分观测状态构建稀疏化词典,并采用局部加权学习实现值函数和连续策略逼近,可同时用于离散和连续动作空间策略学习。理论分析与仿真实验表明,该框架不仅具有简单、高效、开放、易于理解等优点,而且具有较为可靠的收敛保证。(2)针对现有基于核的最小二乘TD算法不能在线稀疏化且未考虑过拟合两大问题,提出三种基于核的在线稀疏化递归最小二乘TD(Recursive Least-Squares TD,RLSTD)算法,分别称作OSKRLSTD-L2、OSKRLSTD-L1和OSMKRLSTD-L2算法。三种算法均使用了最优化Bellman投影算子、在线稀疏化、正则化、RLS和滑动窗口技术,不但可以简化推导、自动实现状态空间表示、避免过拟合和减轻噪声影响,而且可以减少计算开销和存储开销。此外,在OSKRLSTD-L1算法中,还提出了一种不动点子迭代和在线修剪子算法,较好地解决了1正则化难以在线实现这一问题,有助于获得更加稀疏的状态空间表示;在OSMKRLSTD-L2算法中,首次引入了多核最小二乘技术,进一步提高了算法的逼近能力。(3)针对现有连续动作空间Actor-Critic(AC)算法收敛速度与收敛质量不高这一问题,通过对传统高斯策略的局限性进行分析,提出AC算法的低效主要源于传统高斯策略缺乏贪婪性这一观点。在此基础上,提出一种面向一维连续动作空间的对称扰动采样AC算法框架,每时间步通过对称高斯扰动生成两个备选动作与环境并行交互,然后基于二者的最大TD误差贪婪选取行为动作并对值函数参数更新,再基于二者的常规或自然策略梯度平均值对策略参数更新。随后,分析该框架的时间复杂度和空间复杂度,证明其集成的四种AC算法的收敛性,并仿真验证各算法的有效性。鉴于该框架每时间步需要与环境交互两次,为此接着提出一种(?)-贪婪高斯策略和两种与之相匹配的兼容AC算法框架。该策略首次将(?)-greedy策略和传统高斯策略结合起来,对N维连续动作空间,每时间步首先采用对称扰动生成2N个备选动作,然后采用(?)-greedy策略基于优势函数选取行为动作。最后,从理论上和实验上对所提策略和兼容框架进行了分析与验证。(4)针对强化学习算法采用固定标量步长导致学习性能难以提高这一问题,从二阶梯度下降法视角对RLSTD算法重新解读,提出一种新的向量步长自适应算法,并将其应用到线性TD(0)、Sarsa和Q-learning算法之中。在所提步长算法推导中,通过对角阵替代和引入可变遗忘因子,不但降低了计算复杂度,而且可以适应策略学习变化。理论分析与仿真实验表明,所提步长算法较好地继承了RLSTD算法对历史采样的复用能力,可有效提高上述三种算法的收敛质量,每时间步以接近1的概率使TD误差逐渐逼近0。
其他文献
文化强国的构建需要教育的基础之维,教育的发展则需要文化强国理念的引导。文化强国与教育有着内在的文化同构。教育既是文化强国建设的重要内容,又肩负着建设文化强国的重任
在水利工程设计中,施工组织设计的安排尤为重要,是工程投资估算、招标文件、总概算编制的重要依据。本文结合灌区节水改造工程的特点,对其工程的施工改造设计进行探讨,分析了施工
作为一种民间金融的一种形式,作为满足经济发展需要的一种融资机制,民间借贷在促进经济发展的同时也带来许多负面影响,本文旨在从律师实务中经常遇到的问题入手分析民间借贷
高速永磁电机具有转子转速高、定子绕组电流和铁心中磁通的频率高的特点,现已成为电机领域的研究热点之一。高速永磁电机可直接与高速透平膨胀机直连,省去减速齿轮箱及其控制
考虑到目前我国尚未制订统一的防雷装置检测规范和技术标准,以高层建筑物为例,在依据现有相关防雷规范和技术标准、结合建筑物防雷装置检测实际的基础上,总结归纳出建筑物防雷装
通过对天然气分布式能源系统的二种运行方式进行分析,提出了最优的运行方式即燃机满发余热全利用的运行方式,即满足天然气一次能源高效利用的前提又能提高分布式能源系统的[
围绕某焦化厂干熄焦余热发电站并网发电后出现的焦化厂电力系统10 kV母线电压偏高问题,分析了电压偏高的原因,并提出了几点切实可行的应对措施,较好地保证了焦化厂电力系统的
住宅外墙渗漏现象比较常见,造成住宅外墙漏水有建筑设计、施工和建设管理等多方面的原因,尽可能在建筑的设计和施工阶段消除或减少外墙渗漏的隐患,确保住宅的使用功能达到业主的
本文先就电气工程中电气自动化应用的重要性和优势加以阐述,然后就电气自动化技术在电气工程中的实际应用详细探究,希望能通过此次的理论研究分析,能有助于进一步丰富电气工程的理论。