论文部分内容阅读
舰载机是航空母舰的重要战斗力量,舰载机在航母上的安全起降始终都是航母/舰载机系统顺利完成战斗任务的重点与难点。我国目前已经实现了舰载机的人工起降,但是人工起降技术高度依赖良好的气象条件,并且着舰指挥官的培养难度较大等因素制约了着舰技术的发展。对于自动着舰技术,我国尚处于理论研究阶段。舰载机着舰是一个顺序的决策控制问题,而强化学习在最优控制与顺序决策问题上有着成功应用的先例与天然优势。本文为探索强化学习在航母舰载机领域的应用,将深度强化学习的方法应用于自动着舰控制,研究了面向着舰问题的行动者-评论家算法。论文主要工作如下:(1)设计了面向着舰问题的行动者-评论家算法,针对舰载机着舰任务的特定业务背景,在没有控制模型和动力学模型的情况下,采用行动者-评论家算法和确定性策略梯度思想,对舰载机自动着舰过程的状态空间、动作空间以及奖励函数进行了研究,给出了符合问题背景的马尔科夫决策过程模型。(2)针对着舰过程中奖励稀疏的问题,本文提出了一个奖励重塑模型,有效解决了着舰过程中的奖励稀疏问题。首次利用仿真飞行软件X-Plane作为强化学习实验环境,以F/A-18型舰载机为例实现了平稳飞行并成功着舰,形成了一套完整的演示平台解决方案。(3)提出了行动者-适应者-评论家算法,提高了算法在非稳态环境下的泛化性。本文在行动者-评论家算法框架的基础上进行了针对性的改进,加入的适应者能够对行动者输出的动作给予修正,以适应环境的变化。为了测试算法对非稳态环境的适应性,本文对强化学习集成环境中智能体的物理模型进行了不同程度的修改,以模拟环境的变化,在Gym与MoJoCo环境下的测试结果验证了本文提出算法的有效性,同时对环境的变化也有较好的适应性。此外,本文还将改进的算法应用于仿真环境中舰载机的自动着舰任务,也显示出了一定的适应性。本文实现了以专业飞行软件X-plane为仿真环境的强化学习自动着舰算法,并且提出了一个能有效适应环境变化的强化学习算法,算法在集成强化学习环境和专业飞行软件中进行了非稳态环境的测试,显示出了良好的环境适应性。