论文部分内容阅读
强化学习(Reinforcement Learning)是一种重要的机器学习方法,在人工智能领域有着举足轻重的地位。强化学习算法又分为有模型的强化学习与无模型的强化学习,其中传统的基于模型的强化学习虽然改善了典型的无模型的强化学习算法的学习速度慢以及学习精度不高等问题,但这种算法的实现通常是直接给系统一个确定的外界环境模型或需要较多的外界环境信息等先验知识,从而限制了强化学习的发展与应用。针对以往基于模型的强化学习算法的这些限制,本文将高斯过程模型应用到强化学习算法中,提出运用动态匹配与线性化高斯后验均值函数相结合的近似推理算法对后继状态进行预测以及对控制策略进行粗略推断,从而有效改善了有模型强化学习需要过多的外界环境因素等难点问题。本文具体的研究工作如下:首先,运用高斯过程回归模型对强化学习中外界环境建模。对以往的强化学习算法进行分析探讨,分别给出传统无模型与有模型的强化学习算法的不足之处,然后对监督学习中高斯过程回归(Gaussian process for regression)模型进行详细分析,了解其优良性质,并利用高斯过程回归模型对强化学习中的外界环境进行建模,改善以往有模型的强化学习算法几乎不能承受模型误差的缺陷,并为后文对强化学习中期望成本的求解打下基础。其次,运用期望成本获得最优策略,从而达到学习目标。在外界高斯环境模型的条件下,提出动态匹配与线性化高斯后验均值函数相结合的近似推理方法对后继状态分布的均值与方差进行预测,从而得到期望成本,再对期望成本进行基于梯度的策略搜索,然后通过共轭梯度法或者拟牛顿法进行策略参数的优化,最终将学习到的控制策略运用到强化学习系统中,再由系统反馈以及最终的策略回报来更新外界环境模型,重复以上步骤直到学习到最优策略,最终达到学习目标。采用动态匹配与线性化高斯后验均值函数相结合的推理方法对后继状态进行预测,成功的改善了强化学习中学习速度慢等问题。最后,通过三级倒立摆系统对改进后算法的学习快速性以及其它关键性质进行了验证,并做出相关分析。