基于强化学习的空战微分博弈问题的研究

来源 :沈阳航空航天大学 | 被引量 : 0次 | 上传用户:stupid199001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
具有冲突和对抗性的微分对策问题在军事领域有着重要的地位。强化学习以其良好的学习性能在复杂非线性系统和多智能体领域受到了广泛的关注。本文利用极大极小Q学习与模糊Q学习两种强化学习算法,对飞行器追逃博弈这一典型微分对策问题进行求解。首先,介绍微分对策问题求解的难点与强化学习目前面临的问题,对强化学习方法的理论和主要算法进行说明。本文对微分对策的理论进行了阐述,建立飞行器追逃模型,利用相对运动状态对系统进行描述,将状态方程进行降维简化,并分析系统状态与双方控制量的对称关系。接着,利用极大极小Q学习求解追逃双方控制策略。将追逃问题变换为零和对策问题,基于简化的状态方程建立求解模型,在追方已知逃方当前时刻动作的情况下,利用系统状态与双方控制量的对称关系提高Q值学习效率,将极大极小Q学习得到的离线Q矩阵作为双方控制策略的指导。仿真结果证实了该方法的可行性。最后,对追逃双方智能体分别建立非零和模糊Q学习模型并求解最优控制量。模糊Q学习在连续时间系统中能够为智能体生成全局连续动作,克服极大极小Q学习中控制量不连续的问题,且在实际中对策双方无法观测敌机当前时刻控制量,在该条件下,分别建立追逃双方模糊Q学习模型并求解,通过得到的离线Q矩阵计算双方控制策略。仿真结果证明了该方法的有效性,对比说明了模糊Q学习在连续时间系统中的实用性。
其他文献
本文对笔记本新产品导入项目管理过程进行分析和优化研究。主要目的是运用现代项目管理方法,通过对现有项目管理过程和方法进行优化,提升项目管理的效率,使之更加适应经济形
福建民間契約文書是福建地區珍貴的歷史文獻資料,這些史料的時代上迄宋德佑二年(1276),下至二十世紀五十年代初。與其他傅世文獻相比,它具有真實性、地域性、家族性、民族性、“同時性”等特點。對福建契約文書的語詞進行研究,一方面,可以考察當時福建地區人民的語言使用狀況;另一方面,也能够從宏觀上探究近代民間手書文獻的詞彙發展情況。文章分爲三個部分。第一章是緒論,介紹福建契約文書的刊布整理概況及研究的文獻
空间能力作为人类的基本智能之一,是与言语能力相对应的另一个独立的智力结构,是人类进行生产劳动、创造发明所必须的基本素质,也是当代学生获得学业成就所必须掌握的基本技
目的:探索验证简化认知行为治疗(Simplified Cognitive Behavior Therapy,SCBT)对成人抑郁障碍患者的中长期疗效。方法:在心理咨询门诊招募抑郁障碍患者,患者被随机分入3组:S
随着我国对南海新能源开发力度的加大,开采作业范围已从浅水逐渐转向深水环境,以往管线输运方法已经不再适用。对此,国际上提出了具有独特优势的大型液化天然气生产储存平台F
[目 的]随着中国老龄化社会的到来、免疫抑制剂广泛应用以及艾滋病发病人数不断增多,腺病毒引起的病毒性肺炎的发病率在不断升高。目前尚无安全可靠的新型药物用于治疗腺病毒
作为景观空间的苏州园林,具有独特的空间结构特征和景观布局原则,这是它与其他地区园林区别开来的关键所在。为解决苏州园林如何向我们展示自身空间独特性的问题,本文提出苏州园林的“展示性”概念。首先,苏州园林的展示性呈现为可被提炼的客观的空间特征,这些客观特征成为古今修建和修缮园林遵循的设计标准。通过对几座具有代表性的苏州园林的实地调研,本文总结出苏州园林展示性的三个客观特征:景观组合的密集性、对比手法以
大型船用柴油机在研发过程中通常很难应用相同尺寸的单缸机来进行台架实验,因此,通过几何缩小后的单缸模型机来预测大型船用柴油机的性能有着重要意义。本文在相似理论基础上
戏剧是一种特殊的文体,既是文学体裁又是舞台艺术。戏剧本身的属性决定了其不仅仅是供读者进行阅读的,同时,更核心重要的目的是必须要进行舞台演出,让观众走进剧院现场观看演出。戏剧语言包括对白和舞台提示两部分,两者各有特点。对白可分为人物性、口语化和动作性;舞台提示旨在表述清晰,言简意赅。因此,戏剧翻译就要求译文在传达意义的同时,要具备戏剧文本的语言特点,使得译文在具备可读性的同时还具有可表演性。这对于翻
目的:探讨影响股骨远端肿瘤型膝关节假体无菌性松动的相关因素和单光子发射计算机断层成像术(SPECT)骨三相鉴别肿瘤型膝关节假体无菌性松动的临床应用价值,总结股骨弧形髓针