论文部分内容阅读
分层强化学习在经典强化学习的MDP框架上引入抽象机制,从动作、任务和策略等角度对学习任务分解,构建分层机制,在抽象内部和抽象间的不同层次上分别对子任务进行实现,采取“分而治之”的途径有效克服了维数灾难。在大状态空间的应用领域,有着广泛的应用前景。基于先验知识和人工分层的强化学习方法无法适应日趋复杂多变的应用环境,因此赋予智能体自我探索、发现和构造层次结构的任务分解能力,实现学习中的自动分层,最终完成复杂、大型问题的求解已经成为分层强化学习领域的一个研究热点,而针对自动任务分解中的子目标发现问题是该领域最为活跃的研究之一。本文主要对以下几个方面进行了研究和探讨:首先,介绍了分层强化学习方法的研究进展和相关理论,对目前提出的自动分层方法进行了归纳和比较。其次,提出一种改进的基于动作信息量的子目标发现方法,该方法利用不同状态下智能体作出决策动作所包含的目标信息量来区分状态的重要程度,挖掘实现学习目标的关键状态的特征,并设计了在线的对大状态空间中的关键状态进行自动发现,进而实现学习任务层次分解的自动分层算法,然后利用二维有障碍栅格构成的迷宫寻径框架问题进行了仿真实验,与经典强化学习方法进行对比,验证了提出方法的有效性。最后,以三自由度冗余串联机械臂的自主避障为应用背景,引入层次机制,设计了机械臂避碰的分层强化学习模型。该学习模型将低层高维度关节空间中的轨迹学习抽象到高层低维度末端位置的路径学习,并融入本文提出的自动分层方法,在学习初期自动寻找关键路径点,生成轨迹片段,利用这些轨迹片段进行大粒度的避障学习。通过在ODE物理引擎搭建的机械臂仿真平台下的对比实验,说明了自动分层的层次方法对强化学习的学习效率提高有着积极的影响,验证了分层强化学习在解决高维度大规模学习问题时的有效性和可行性