论文部分内容阅读
强化学习是一类无需先验知识的机器学习方法,以Agent与环境不断的交互为主要特征,以寻找能带来最大期望累积折扣奖赏的策略为目标。强化学习中环境可能具有大状态空间甚至连续状态空间,Agent所能执行的动作可能为离散的或连续的,这必然带来一定的复杂性。本文着眼于大规模空间或连续空间可能带来的问题,以值函数逼近为出发点,针对对当前值函数逼近方法中存在的若干问题提出若干值函数逼近模型及其相应的强化学习算法。主要研究内容包括以下三部分:(1)将高斯过程时间差分学习与SARSA算法相结合时易产生初始性能差、学习速度慢甚至找不到最优策略等问题。针对此,利用协方差函数建立一种新的值函数概率生成模型,再利用线性函数和高斯过程对值函数建模,最后利用贝叶斯推理估计值函数,得到基于高斯过程的快速SARSA算法。(2)针对难以将高斯过程时间差分学习与Q学习算法相结合的问题,提出用于值迭代的值函数概率生成模型,利用线性函数和高斯过程对值函数建模,再借助贝叶斯推理求解值函数参数的后验分布,得到基于高斯过程的Q学习算法。该算法可解决大规模状态空间问题,且同时具有贝叶斯估计方法和Q学习算法的优点。(3)针对连续动作空间可能带来的“维数灾”问题,以行动者评论家为基本结构,利用线性函数分别对状态值函数和策略建模,借助时间差分误差的sigmoid函数构造关于策略参数的均方误差,利用梯度下降和最小二乘方法最小化此均方误差,分别得到连续动作空间中的梯度下降行动者评论家算法和最小二乘行动者评论家算法。所提算法能有效避免连续动作空间带来的“维数灾”问题,且有较高的数据利用率。