论文部分内容阅读
随着科技不断发展进步,无人机的应用范围逐渐扩大,这无形中对其智能化提出了更高的要求。未来的无人机应该通过与环境交互自主完成障碍躲避、路径规划等常规任务,而不是仅仅依赖于手动编写的程序。强化学习算法是实现自主化的一条可行技术路线,并已被用于游戏及其它一些人工较难掌控任务的学习中,然而,其在训练时较大的在线运算压力及较长的交互过程阻碍了它更为广泛的应用,特别是在无人机领域。针对此种情形,本文以强化学习算法及其在无人机路径规划中的应用为主要研究内容,尝试在强化学习开始前赋予智能体特定的专家知识来提高学习算法的实用性。研究主要从以下两方面展开:一是结合专家对任务的了解,通过引入批量递归最小二乘或构造特殊基函数来降低对称任务中学习的运算复杂度;二是从迁移的角度出发,重点研究在新任务强化学习中复用源任务示教轨迹所含专家知识的方法,并进一步探索了示教知识迁移辅助的强化学习在无人机路径规划中的应用。本文的主要研究工作和贡献归纳如下:1、系统综述了强化学习算法及其应用现状,着重介绍了引入专家知识以弥补其白板学习盲目性的研究,特别是与迁移算法相结合的部分;总结了迁移在强化学习中应用的难点,并提出从简单源任务的示教轨迹中挖掘并迁移知识到新任务中加速强化学习的框架。2、针对在Actor-Critic结构强化学习算法中智能体用最小二乘法估计自然梯度的运算量是估计普通梯度数倍的问题,本文提出利用批量递归的思想来有效降低智能体在线运算压力。强化学习过程中,智能体可以在交互数据达到专家设定的数量之后再用递归最小二乘法估计自然梯度,从而明显减少了梯度估计次数;与此同时,由于每次梯度估计更为准确,智能体可以适当增大策略参数更新步长以保证算法收敛速度不受明显影响。总之,批量递归使得智能体能够在可接受的在线运算压力下灵活处理交互数据。3、针对状态动作空间存在对称性的任务,本文提出一种能够近似对称状态值函数及策略的特殊基函数。专家在构造基函数时,同时考虑中心点及其对称位置信息从而使基函数的值在对称位置自然相等,进而使得状态值函数在对称状态也相等。然而,由于特殊基函数数量与常规基函数相比较少,强化学习速度明显加快且运算压力显著降低。4、由于源任务示教轨迹数量有限且单个轨迹所含数据较多,用机器学习分类较难,本文提出结合动态运动基元与卷积神经网络进行分类的方法。算法首先将示教轨迹视作独立的多维时间序列并用不同动态运动基元的参数依次作为各个维度的表征;之后,用改造的卷积神经网络发掘基元参数序列的结构变化信息进行分类;最后,综合各维度分类情况以确定轨迹类别。5、针对专家较易示教简单任务而强化学习适于解决较难问题的情况,本文提出多种在较难任务强化学习中复用与之相关源任务示教轨迹所含专家知识的方法。本文尝试从多个角度挖掘示教轨迹所含专家知识,并经由智能体空间或任务间关系映射迁移到新任务中,通过引导学习的探索过程、鼓励访问某些状态或直接作为选择动作的初始策略等方式加快新任务的学习速度。6、为在无人机路径规划中应用强化学习,本文提出用重构的示教轨迹来引导智能体探索的方法。专家首先示教多个参数已知的任务从而赋予智能体多种避障技能;当遇到相似情形时,智能体可通过任务间的构造关系泛化出新的避障轨迹;最后,依照推荐轨迹次序构造出势函数并用Q学习训练得到较好策略。算法减少了智能体学习失败的次数,验证了强化学习在无人机领域应用的可行性。