论文部分内容阅读
学习控制是强化学习中的主要任务之一。该任务的目标是获取最大化期望回报的策略。近年来,许多用于求解连续动作空间的策略梯度算法被提出,这些策略梯度的研究工作主要围绕着在线实现、减小估计方差、提高算法稳定性、扩展到离策略、确定性策略、部分可观测马尔可夫决策过程等方面展开。强化学习方法作为机器学习中的重要方法,在值函数或策略的函数空间较大时,也会出现与其他机器学习方法一样的过拟合的情况。而现有针对策略梯度的正则化研究还很少。因此,本文重点研究了正则化策略梯度的方法,借助范数正则化来降低模型参数的个数以及减小参数的范数,以控制模型复杂度,并提出了一系列用于求解正则化强化学习问题的算法。本文的主要研究内容包括以下三部分:1.提出了评价网络迭代策略梯度(CIPG)算法。该Actor-Critic(AC)算法以在策略方式对状态值函数进行估计,并沿着最大化折扣回报和的梯度方向来改进策略。在每一次迭代中,CIPG使用l2-范数正则化梯度最小二乘策略评价算法(LSTDC)对一个保持不变直到该次迭代结束后才更新的策略进行评价。论文给出了所提出方法的收敛性分析,将带有函数逼近器的策略梯度分析扩展到使用递推最小二乘时域差值评价网络的情形,通过基准仿真实验验证了评价网络的正则化作用不随着学习过程衰减且该算法具有高效的学习效率及快速的收敛性能。2.为了实现动作网络的参数的正则化和基函数选择功能,本文在动作网络中施加l1-范数正则化。在每一次迭代中,该方法最小化标准强化学习目标函数和动作网络参数的l1-范数两项之和,并通过正则对偶平均方法进行求解,称之为正则对偶平均策略梯度算法(RDA-PG)。RDA-PG可以高效求解以上最小化问题,并能够实现对随机策略或者确定性策略梯度估计的正则化和基函数选择功能。论文基于双时间尺度随机逼近理论对所提出的算法进行了收敛性分析,并通过数值仿真和真实物理实验验证了所提出算法的基函数选择功能及在随机和确定性策略的稀疏表示。3.针对深度强化学习中动作网络的参数范数正则化问题,提出了基于l1-范数/l2-范数正则化的深度强化学习离策略AC学习控制算法。所提出的目标函数可以直接利用现有深度学习框架,例如TensorFlow和Pytorch的自动求导机制进行动作网络和评价网络的权值更新,求解具有连续状态和动作空间的强化学习问题。该方法在原有软AC(Soft AC)方法的基础上,引入具有l1-范数/l2-范数正则化作用的动作网络,给出了范数正则化深度强化学习的学习目标函数,定义了该目标函数下的包含策略参数的范数项的值函数和贝尔曼方程,证明了状态、动作空间有限情况下的正则化策略迭代收敛到最大化所提出目标函数下的最优策略。然后结合函数逼近器,扩展到连续状态、空间情形。本论文通过贝尔曼方程定义评价网络的目标函数,再根据策略梯度的极大似然估计方法和再参数化方法给出了两种动作网络的权值更新规则。并且,给出了正则化参数自适应调整的方法。