论文部分内容阅读
多机器人追捕问题是研究机器人之间协调和协作的最理想的平台。将强化学习算法应用到追捕问题当中可以使多机器人系统主动的去探索环境,适应环境,从而提高自身的性能和稳定性,而直接将标准的强化学习算法直接应用于多机器人系统会使得系统的状态空间随机器人数量成指数倍增长,从而导致算法收敛速度缓慢,难以在实际中应用。对此本文以降低系统状态空间的大小,提高算法的收敛速度为目的,进行了如下研究:首先,介绍了强化学习算法的基本框架和它的数学模型,并列举了常用的强化学习算法及其算法流程。简单描述了多机器人追捕问题及其状态抽象、动作抽象和回报函数的定义,并考虑到传统状态抽象法中存在状态重复的问题,提出了动态ID状态抽象法来降低系统状态空间的大小,并与传统的状态抽象法在使用标准Q学习算法的基础上进行比较。其次,介绍了分层强化学习的基本原理,采用分层强化学习中的状态空间分解法来将原状态空间分为多个部分,即采用OPTION-学习算法使最优策略的求解过程分散到每个子空间上,从而降低策略空间的数量,加快了算法的收敛速度,并在采用动态ID状态抽象的基础上与标准强化学习算法进行了比较。最后,本文采用值函数分解来改进了OPTION-学习算法,将OPTION-算法中的子任务的状态值函数分解为两个部分,使得其中重复的部分可以重复调用,降低了算法对同一状态的访问次数,从而加快了收敛速度。并与OPTION-学习算法在用动态ID状态抽象的基础上进行比较。