面向舰载机自动着舰问题的分层深度强化学习算法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:cao240
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着军事技术的发展,舰载机发挥的作用越来越重要。而舰载机的着舰过程在航母/舰载机系统中是非常重要的环节。由于早期的人工辅助着舰存在着很多不确定性因素,所以自动着舰技术逐渐兴起。强化学习近几年在多个领域大放异彩,其出色的学习及决策能力使其能够在多种任务类型中表现优越。本文将研究虚拟环境X-Plane中强化学习算法在舰载机自动着舰过程的应用,希望为未来AI算法可以更加普遍地应用在军事领域做一些前瞻性的工作。在已有的工作中,已经完成了舰载机在基本着舰任务中的着舰过程研究,基本着舰任务的特点是舰载机在着舰前的状态处于标准状态误差范围之内,此类初始状态下舰载机智能体容易探索到奖励进而训练模型。本文主要针对异常状态下的着舰任务展开研究。异常状态指舰载机着舰前的初始状态不在标准状态误差范围之内,导致探索难度大,难以获得足够奖励去训练强化学习模型。本文首先提出了一种基于策略维度的分层强化学习算法。该算法模型由上下两层策略组成。下层策略是子任务控制器,由若干个子任务智能体组成,子任务智能体可独立完成姿态调节、偏航控制、速度调节、靠近下滑线以及基本着舰任务。上层智能体负责调度协调下层的子任务智能体以完成整个着舰过程。本文完成了下层策略中子任务的设计、马尔可夫决策过程(MDP)的建模以及子任务智能体的训练,在此基础上完成了对整个分层模型的设计及实现。训练得到的分层模型可以控制舰载机完成在异常状态下的着舰过程。虽然上述基于策略维度的分层强化学习算法可以指导舰载机完成着舰,但当舰载机与着舰目标点的初始距离较大时,由于最终奖励存在延迟,所以性能表现不够稳定。因此,本文进一步提出了一种基于任务维度的分层强化学习算法,将着舰任务分为主控层任务和辅助层任务。舰载机处于异常状态下着舰时,需要先纠正自身回到标准状态附近,然后沿标准参考下滑线着舰。辅助层任务指舰载机从异常状态纠偏至标准状态的过程。主控层任务指舰载机沿下滑线平稳着舰的过程。本文分别对辅助层任务和主控层任务进行了设计并实现。然后将辅助层任务与主控层任务衔接起来,可以保证舰载机在异常状态下成功着舰。为了验证本文提出算法的正确性和有效性,本文在X-Plane环境中搭建了训练平台,实现了模型的训练,并将两种分层强化学习算法应用在异常状态下舰载机的着舰过程中。实验结果表明本文提出的两种算法可以控制舰载机完成着舰,并且基于任务维度的分层强化学习算法在整个着舰过程中表现得更加稳定。
其他文献
本文以沈石溪动物小说中表现出的人性与动物性的互动关系为研究对象,分析其作品中两个特质:一是作者严格按照动物习性和生活特征所刻画出的动物形象和动物社会;二是这些动物形象和动物世界与人类和人类社会之间所形成的镜像关系。笔者认为,借助这种逼真的动物性特征与深沉的人性内涵之间的融合、拒斥,沈石溪创作出了一种复调式的动物小说。绪论部分通过分析当前学界已经取得的沈石溪动物小说研究成果,对这两个关键概念进行界定
目的:通过观察中医透药联合电针疗法治疗脑卒中后肢体痉挛性偏瘫患者的痉挛状态、运动功能、日常生活活动能力的影响,探讨中医透药联合电针治疗该病与单纯电针治疗的疗效对比,明确中医透药联合电针治疗本病的效果和临床价值。方法:本研究采取随机对照的试验方法,将2018年6月至2018年12月,在上海市普陀区石泉社区卫生服务中心中医科、内科符合诊断纳入标准的70例患者,随机分成中医透药联合电针的治疗组和单纯电针
在现代电子战中,低截获概率(Low Probablity of Intercept,LPI)雷达由于采用了大时宽大带宽的复杂调制信号以及进行功率管理等一系列技术手段,有效提高了雷达的战场生存能力,
水代法(Aqueous extraction processing,AEP)提油工艺具有提取条件温和、油品质量好、资源利用率高和环境友好等特点,一直以来备受关注。水代法提油工艺经过半个多世纪的研究
“天下观”作为一个庞大的思想体系,包含了哲学、政治、地理甚至是宗教的观念。要了解它的产生和发展,显然要从寻找它的源头开始。在先秦时期文字记录和口耳相传中,保留了许
随着科创板的注册制试点的成功启动,经过四轮审议又历时四年修订的《中华人民共和国证券法》于2020年3月1日起正式实施。新证券法的正式实施明确了在我国证券资本市场全面推行注册制,还增加了“信息披露”和“投资者保护”独立专章。注册制和强制退市作为证券资本市场的闸门,可以解决“只进不出”的堰塞湖现象,有利于市场真正发挥优胜劣汰的功能,促进资本市场的透明化、法制化的高效率健康运行发展,增强市场活力。在发生
乡村振兴战略对于我国全面建设社会主义现代化国家、实现第二个百年奋斗目标具有全局性和历史性意义。土地是农村最重要的资源,也是实现乡村产业振兴的重要抓手。合理配置农
油脂的氧化会引起食品质量劣变,使其风味、色泽以及营养成分下降,寻找延缓油脂氧化的方法始终是产业发展的热点问题。抗氧化肽属于新型抗氧化剂,但其作用机制尚未完全了解,因
童年书写是儿童文学艺术的核心内容,表现童年的现实生活与想象世界,是儿童文学对童年精神的审美创造与诗意追求。童年书写不只是一种文学的表达策略和创作形式,更是以文学形
现如今,城市中车位少停车难的问题尤为显著,停车AGV(Automated Guided Vehicles)因此诞生。研究运动方式多样、路径规划灵活、定位精度高的激光导航全向运动AGV,是解决车位不