论文部分内容阅读
作为一类求解序贯决策问题的重要方法,强化学习因其独特的无教师自主学习机制而倍受关注。尽管强化学习近年来已取得了较大进展,但在求解具有连续状态和动作空间的实际问题时仍面临诸多挑战,例如易遭受维数灾难和学习效率不高。为此,本文对连续空间强化学习展开研究,主要工作和创新概述如下:(1)针对现有线性局部逼近时域差分(Temporal Difference,TD)学习算法大多不能对连续状态空间自适应表示和对连续动作策略精确求解两大问题,提出一种增量最近邻TD学习框架,并就各关键部分给出多种定义方案。所提框架建立在相邻状态的值函数与策略通常具有较高的相似性这一规律之上,通过在线选取部分观测状态构建稀疏化词典,并采用局部加权学习实现值函数和连续策略逼近,可同时用于离散和连续动作空间策略学习。理论分析与仿真实验表明,该框架不仅具有简单、高效、开放、易于理解等优点,而且具有较为可靠的收敛保证。(2)针对现有基于核的最小二乘TD算法不能在线稀疏化且未考虑过拟合两大问题,提出三种基于核的在线稀疏化递归最小二乘TD(Recursive Least-Squares TD,RLSTD)算法,分别称作OSKRLSTD-L2、OSKRLSTD-L1和OSMKRLSTD-L2算法。三种算法均使用了最优化Bellman投影算子、在线稀疏化、正则化、RLS和滑动窗口技术,不但可以简化推导、自动实现状态空间表示、避免过拟合和减轻噪声影响,而且可以减少计算开销和存储开销。此外,在OSKRLSTD-L1算法中,还提出了一种不动点子迭代和在线修剪子算法,较好地解决了1正则化难以在线实现这一问题,有助于获得更加稀疏的状态空间表示;在OSMKRLSTD-L2算法中,首次引入了多核最小二乘技术,进一步提高了算法的逼近能力。(3)针对现有连续动作空间Actor-Critic(AC)算法收敛速度与收敛质量不高这一问题,通过对传统高斯策略的局限性进行分析,提出AC算法的低效主要源于传统高斯策略缺乏贪婪性这一观点。在此基础上,提出一种面向一维连续动作空间的对称扰动采样AC算法框架,每时间步通过对称高斯扰动生成两个备选动作与环境并行交互,然后基于二者的最大TD误差贪婪选取行为动作并对值函数参数更新,再基于二者的常规或自然策略梯度平均值对策略参数更新。随后,分析该框架的时间复杂度和空间复杂度,证明其集成的四种AC算法的收敛性,并仿真验证各算法的有效性。鉴于该框架每时间步需要与环境交互两次,为此接着提出一种(?)-贪婪高斯策略和两种与之相匹配的兼容AC算法框架。该策略首次将(?)-greedy策略和传统高斯策略结合起来,对N维连续动作空间,每时间步首先采用对称扰动生成2N个备选动作,然后采用(?)-greedy策略基于优势函数选取行为动作。最后,从理论上和实验上对所提策略和兼容框架进行了分析与验证。(4)针对强化学习算法采用固定标量步长导致学习性能难以提高这一问题,从二阶梯度下降法视角对RLSTD算法重新解读,提出一种新的向量步长自适应算法,并将其应用到线性TD(0)、Sarsa和Q-learning算法之中。在所提步长算法推导中,通过对角阵替代和引入可变遗忘因子,不但降低了计算复杂度,而且可以适应策略学习变化。理论分析与仿真实验表明,所提步长算法较好地继承了RLSTD算法对历史采样的复用能力,可有效提高上述三种算法的收敛质量,每时间步以接近1的概率使TD误差逐渐逼近0。