论文部分内容阅读
强化学习是一种以环境反馈作为输入的,特殊的、适应环境的机器学习方法.agent在与环境交互中通过“试—错”的方式对不同状态下各动作的期望反馈进行学习,以最优化长期收益。按照长期收益定义方式,强化学习分为有限无折扣强化学习、无限有折扣强化学习与平均奖赏强化学习三类。有限无折扣强化学习最大化agent在有限步内所获得的奖赏值和.无限有折扣强化学习则对agent在某状态能获得的期望反馈引入折扣因子γ,agent近期获得的奖赏将被赋以较大的权值,长期获得的奖赏值则被赋以较小的权值。不同于以上两类强化学习,平均奖赏强化学习最大化agent的长期平均收益。
本文研究该模型下的强化学习算法。R—学习是经典的平均奖赏强化学习算法。在学习过程中,该算法更新状态动作对的值函数。由于值函数通常表示成相对于系统平均奖赏值的相对值形式,并且学习前平均奖赏值未知,因此当agent选择贪心动作时,算法更新平均奖赏值。平均奖赏值与各状态相关,当agent访问任一状态时,平均奖赏值将有很大可能需要进行更新。因而不同时期所获得的值函数之间,其值大小存在“模糊”,导致算法不稳定。若采用学习方式更新平均奖赏,则又将使算法对参数的依赖性增强。
曹希仁等人在研究马尔可夫过程问题下的扰动分析时提出性能势这一概念.研究表明:状态的性能势可被用于衡量该状态对系统平均性能的贡献,而任一状态的性能势值都可被用作参考值以计算其它状态的性能势.其后,他们又将性能势推广到马尔可夫决策过程以及半马尔可夫决策过程问题中,指出选择不同的状态作为计算性能势的参考状态并不影响最优策略的确定。
性能势可以选择任一状态作为参考状态并且不影响最优策略的选择,所以本文可以基于性能势定义各值函数。在agent访问参考状态时更新其性能势值,那么在其相邻两次更新的间隔内,各值函数大小不存在“模糊”,从而提高算法稳定性。传统的基于性能势的算法都采用采样路径的策略迭代方式,其效率不高.因此本文又结合强化学习中的异步值迭代方式,进而提出G—学习算法。本文将G—学习算法分别应用在马尔可夫决策过程问题与半马尔可夫决策过程问题中,并与相应的传统算法相比较。实验证明,相较于其它学习算法,G—学习算法学习速度更快,学习效果更好。