论文部分内容阅读
策略评价和学习控制是强化学习问题中两大主要任务。其中策略评价过程是指在给定策略下,对特定起始状态之后可获得的未来奖赏折扣和的期望值做出估计。近年来,许多基于时域差分和值函数逼近的改进策略评价算法被提出,改进的内容包括提高样本利用率、实现参数正则化、以资格迹形式扩展,及应用于离策略问题的扩展等。因此,课题重点研究了提高正则化在线策略评价算法的方法,提出了一系列求解不同类型问题中的特定算法。论文的研究内容分为三个部分:(1)提出了带有梯度修正项的最小二乘时域差分(LS-TDC)策略评价算法,以及基于核方法的KLS-TDC算法。LS-TDC在最小二乘框架下借助梯度修正作用,具有良好的收敛性能。通过采用核方法构造特征函数,KLS-TDC方法具有更好的泛化特性,并且利用近似线性独立性分析,该方法可以自动进行特征函数选择。另外基于KLS-TDC构造了一种用于解决学习控制问题的策略迭代方法。通过在策略和离策略学习问题,以及学习控制问题测试了所提出两种方法的收敛性和参数敏感度。(2)基于多步递推最小二乘技术,提出了一种具有O(n2)复杂度的在线递推LS-TDC方法,称为RC算法。为了进一步提高样本利用率,RC算法进行了带有资格迹形式的扩展。同时为了使RC可以进行离策略学习,利用重要性采样方法对状态分布进行了加权。为了使得RC算法实现具有目标函数意义的正则化,提出了带有正则化更新步骤在线l2-正则化RC算法,使得正则化效果随着样本数量的增加保持不变,参数的变化更加稳定。同时还提出一个计算量更小的等效近似算法FRRC。论文给出了以上所有方法的收敛性分析,并利用在策略和离策略benchmark问题验证了算法的性能和优势。(3)为了实现特征函数选择功能,基于l1-正则化提出了一种带梯度修正项的稀疏化邻近递推最小二乘时域差分算法,称为l1-RC。l1-RC通过求解带有l1-正则化惩罚项的目标函数MSPBE实现稀疏化和正则化,并且在每一时刻的算法复杂度控制在O(n2)。在两步嵌套优化的求解中,RC迭代校正方法用于算子误差步骤(OPE)的优化求解,ADMM方法用于不动点误差步骤(FPE)的优化求解。两步求解过程交替迭代共同寻找最小化目标函数的不动点。论文还给出了l1-RC算法的一些相应扩展,同时应用ODE方法对其收敛性进行了分析,并利用benchmark问题证实了所提出的方法可以得到理想的稀疏解,并证实了其收敛性能优于最新的一阶正则化方法。