面向飞行器自主着舰问题的行动者-评论家算法模型研究与实现

来源 :北京交通大学 | 被引量 : 7次 | 上传用户:gjsh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
舰载机是航空母舰的重要战斗力量,舰载机在航母上的安全起降始终都是航母/舰载机系统顺利完成战斗任务的重点与难点。我国目前已经实现了舰载机的人工起降,但是人工起降技术高度依赖良好的气象条件,并且着舰指挥官的培养难度较大等因素制约了着舰技术的发展。对于自动着舰技术,我国尚处于理论研究阶段。舰载机着舰是一个顺序的决策控制问题,而强化学习在最优控制与顺序决策问题上有着成功应用的先例与天然优势。本文为探索强化学习在航母舰载机领域的应用,将深度强化学习的方法应用于自动着舰控制,研究了面向着舰问题的行动者-评论家算法。论文主要工作如下:(1)设计了面向着舰问题的行动者-评论家算法,针对舰载机着舰任务的特定业务背景,在没有控制模型和动力学模型的情况下,采用行动者-评论家算法和确定性策略梯度思想,对舰载机自动着舰过程的状态空间、动作空间以及奖励函数进行了研究,给出了符合问题背景的马尔科夫决策过程模型。(2)针对着舰过程中奖励稀疏的问题,本文提出了一个奖励重塑模型,有效解决了着舰过程中的奖励稀疏问题。首次利用仿真飞行软件X-Plane作为强化学习实验环境,以F/A-18型舰载机为例实现了平稳飞行并成功着舰,形成了一套完整的演示平台解决方案。(3)提出了行动者-适应者-评论家算法,提高了算法在非稳态环境下的泛化性。本文在行动者-评论家算法框架的基础上进行了针对性的改进,加入的适应者能够对行动者输出的动作给予修正,以适应环境的变化。为了测试算法对非稳态环境的适应性,本文对强化学习集成环境中智能体的物理模型进行了不同程度的修改,以模拟环境的变化,在Gym与MoJoCo环境下的测试结果验证了本文提出算法的有效性,同时对环境的变化也有较好的适应性。此外,本文还将改进的算法应用于仿真环境中舰载机的自动着舰任务,也显示出了一定的适应性。本文实现了以专业飞行软件X-plane为仿真环境的强化学习自动着舰算法,并且提出了一个能有效适应环境变化的强化学习算法,算法在集成强化学习环境和专业飞行软件中进行了非稳态环境的测试,显示出了良好的环境适应性。
其他文献
<正>1.工艺流程选料、分级→去皮、切瓣、去子巢→浸泡→抽空→糖制→烘烤→挑选、包装。2.加工方法(1)选料、分级。以选用新鲜饱满、成熟度为九成熟、酸分偏多、耐煮、褐变
目的 建立稳定表达多药耐药基因(MDR1)的人肝癌Bel-7402耐药细胞株,并对耐药机制进行初步探讨,为应用RNA干扰技术逆转肿瘤多药耐药基因的表达提供实验模型。 方法 通过阿霉素(A
对洗手干预材料,分6个视听动组合,于3小时后、3天后、15天后,对同一调查对象利用《洗手操作步骤评分表》进行调查,评价记忆效果。目的在于通过有效的干预材料制作,加强公众正
研究了几类具有重要应用背景的随机偏微分方程的渐近行为.研究这些随机偏微分方程的渐近行为不但具有重要的理论意义而且有重大的实际意义.而随机吸引子(包括L2-随机吸引子,L
目的比较溴吡斯的明分散片和市售普通片在兔体内的药动学参数,计算溴吡斯的明分散片的相对生物利用度。方法 12只新西兰大耳白兔采用随机交叉给药,单剂量口服60 mg溴吡斯的明
企业管理中非常重要的一项内容就是薪酬管理,能够合理的运用薪酬管理是促进企业发展的关键。现阐述了薪酬管理对于企业管理的作用,并分析了企业薪酬管理存在的问题,提出企业
<正>如果以2013联合国粮农组织发表"气候智慧农业"专著—《CSA-Climate-Smart Agriculture》为标志,"智慧农业"绝对称得上是个新事物。但如果从智慧农业的前身——精细农业追
目的:探讨血液科患者耐药菌感染发生情况及临床特征。方法:回顾性分析2016年1月至2017年12月福建医科大学附属协和医院血液科收治的血液病合并多重耐药菌感染患者的临床资料,
本硕士论文由五部分构成,主要讨论了随机动力系统的同步及其在计算神经科学中的应用,特别是神经元的同步。 1.没有相互作用的神经元的同步(见第一章) 当有共同的随机输