论文部分内容阅读
强化学习是机器学习的重要方法之一。强化学习在不断地与环境的交互时获取评价反馈信号,探索最优化策略。目前强化学习正逐步地运用到作业调度、路径规划、在线学习与控制、游戏等实际领域。但现阶段运用强化学习去解决实际的大规模或者连续空间任务仍旧面临着一些困难:(1)探索和利用的平衡问题;(2)“维数灾”问题;(3)时间信度分配等问题。时间差分算法是有效解决时间信度分配问题的方法。解决大规模或者连续空间的强化学习任务的常见方法是函数逼近。核函数逼近作为一种经典的非参函数逼近,相较于带参函数逼近具有更好的泛化性能,但是计算量会随样本增加而增加。本文以基于核函数逼近的时间差分算法为背景,探讨解决基于核函数的强化学习算法性能问题,主要研究工作如下:(1)基于近似样本的核函数最小二乘时间差分算法的研究。为了解决大规模或者连续空间任务中的探索和利用平衡及“维数灾”问题,以基于核函数逼近的最小二乘时间差分算法为背景展开研究,前期采用基于最大化方差标准的数据子集样本近似方法处理样本,起到降低样本冗余度,提高逼近效率的目的。实验结果验证了近似后算法收敛效果的提升。(2)基于优先级扫描的稀疏化核函数时间差分算法的研究。针对数据子集近似方法近似后无法对变化剧烈的大规模数据进行全面表征的情况进行改进。对于基于核函数逼近的最小二乘时间差分算法,前期采用基于ALD的稀疏化方法对样本进行稀疏化处理,降低样本冗余度。运用Sherman-Morrison数学运算公式优化算法,降低计算复杂度。此外还引入优先级扫描思想,增加有用样本的利用程度。实验表明本研究所做的改进能对加快收敛速度并提高收敛精度起到一定的作用。(3)基于样本分布特征判别的核函数选择研究。利用函数逼近的方法解决大规模或者连续空间强化学习任务,要想避免“维数灾”问题,除样本近似或者稀疏化等降低样本冗余度的方法以外,还可以选择适合对样本进行全面特征表征的核函数。以最常见的两种核函数:高斯径向基和多项式核函数为例,研究如何基于样本分布特征,选择适合逼近的核函数。利用选择后的核函数泛化表示最小二乘时间差分算法,实现高效逼近,提升算法收敛效果,避免陷入局部最优。实验验证了基于样本分布特征判别的核函数时间差分算法收敛性能更好。