基于深度强化学习的飞行器自主机动决策方法研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:xingchen1023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代战争不断向着信息化、智能化的方向发展,飞行器自主机动决策技术作为提升战斗机智能化水平的关键技术,也越来越受到世界各国的关注。现代空战环境复杂、态势瞬息万变,能够准确感知空战环境并生成合理决策的自主机动决策方法技术是近几年来军事技术研究的重点。近年来,随着人工智能技术研究的不断深入,深度强化学习方法在多种决策问题的解决上取得了一定的突破,为飞行器机动决策问题的解决提供了新的思路。本文以三维空间中飞行器引导机动为应用背景,从深度强化学习的角度对飞行器机动决策过程进行分析,对三维空间中飞行器的引导智能机动决策方法进行研究,目的是为飞行器机动决策方法的智能化推进提供必要的参考与支持。围绕本文的研究目标,主要进行了以下几个方面的研究工作:(1)针对三维连续空间中飞行器引导训练环境不完善的问题,设计了飞行器基本操纵动作的控制方式,可以通过连续多步的机动控制实现复杂的战术动作,满足飞行器引导训练任务的基本需求。首先,依据飞行器动力学和运动学模型,建立了以切向过载和法向过载为控制量的飞行器运动模型,为深度神经网络提供了真实有效的飞行器状态信息。其次,从飞行员的机动操纵过程入手,分析并设计了飞行器机动控制方式,确定了飞行器可用动作集,完善了飞行器引导训练环境。(2)针对飞行器引导智能机动轨迹不够平滑以及深度强化学习算法存在的训练速度慢等问题,设计了飞行器引导奖励重塑函数,可以引导飞行器从限定空域内任意地点到达移动目标位置,实现飞行器引导任务机动决策智能化。首先,在飞行器引导训练环境中通过对训练环境信息的感知与评估,建立了对环境状态的有效表征。其次,从飞行器与移动目标的相对位置以及相对角度关系等方面入手,设计了强化学习奖励重塑函数,提升了智能体训练效率和飞行器飞行轨迹质量。仿真实验结果表明,在移动目标的引导机动中,使用奖励重塑函数能够明显提高飞行器机动轨迹质量和智能体训练速度。(3)针对当前仿真系统难以满足当前1v1近距空战机动决策智能化需求的问题,设计并实现了支持深度强化学习智能体接入的智能空战仿真系统,可以在系统中进行智能体的训练与验证,为1v1近距空战机动决策方法的智能化推进提供仿真技术支持。首先,从深度强化学习与环境的交互方式入手,设计了智能空战仿真系统的总体架构。其次,对仿真系统智能接口进行了设计,定义了智能体与仿真环境的交互方式。最后,展示了利用该系统进行三维空间内一对一空战智能体的训练成果。该平台可以实现飞行器航迹和3D飞行姿态展示,具备训练1v1近距空战机动决策智能体的能力。
其他文献
信息化时代,以深度学习为代表的人工智能技术飞速进步并逐渐渗透到各行各业。随着近年来航空运输业的蓬勃发展,每日需要处理的飞行计划数据量日益增加,而航路作为飞行计划中FPL报文的重要组成项,由于其复杂的编写规则,目前仍然主要依靠人工进行错误检查。为提高工工作效率、节约人工成本,本文将深度学习引入航路报文纠错领域,采用端到端的神经机器翻译方法,将报文纠错过程看作错误航路到正确航路的“翻译”过程,从而实现
空中管制的智能化发展使得对智能飞行控制提出了更高的要求。目前为解决终端空域繁忙、结构复杂等问题,智能空管系统一般使用移动时隙对飞机进行调度。这意味着当飞机进入终端区域接收到加入时隙命令时,飞机应具备自主寻找路径加入时隙的能力。然而在空域结构较为复杂的终端区域内,传统的飞行控制方法依赖于已有的航程数据、精确的数学模型,当飞机的连续运动发生突变时,不能达到飞行目的,给时隙的调整和加入造成困难。在这种情
在基于生物特征识别的身份核验系统中,说话人识别技术相较于其他生物特征识别技术具有很多优势。由于实际使用中的身份核验系统对识别准确率、系统鲁棒性有着极高的要求,而目前说话人识别技术水平还很难满足系统的这些性能需求,因此该技术仍处在技术研究阶段,并未大规模在实际场景中应用。为提升模型的识别性能和模型的鲁棒性,本文对说话人识别中的关键技术:语音特征提取、损失函数与识别模型结构三个方面进行了相应研究。本文
在法医学身份认定实践工作中,传统主流方法是DNA对比、指纹识别、面部识别等。但是在大规模灾难发生的时候,尸体经常出现腐败化、白骨化、焚毁化等极端现象,前述传统方法难以应用。能否及时、准确地识别死者的身份,对于加快灾后重建,稳定遇难者家属的情绪至关重要。颅骨的蝶窦部位因为具有生物特异性以及抗物理损毁能力,在大规模灾难发生时,通常被法医学专家选作参考资料实现死者的身份认定。既往法医放射学专家通常利用蝶
低空监视雷达是基于三坐标的一次监视雷达。雷达有效工作范围为50km,搜索高度最高为3km,主要是对近低空的低小慢目标进行跟踪。低空监视雷达工作环境复杂,易受气象条件、地杂波、多役干扰等因素的影响。为解决在杂波密集情况下低空监视雷达目标跟踪算法性能效果不佳的问题,本文提出了基于机器学习的航迹起始分类算法和基于模糊聚类的联合概率数据关联算法,以提高目标跟踪的正确率,并满足实时性要求。基于机器学习的航迹
飞行冲突识别与调配活动在实际管制过程的占比较大,对该活动事项展开研究并研发出相应的辅助决策系统可以减轻人员的工作负荷和增强空管的服务能力。本文提出了基于神经网络的冲突识别与调配模型,通过学习历史数据获得管制员的管制策略,然后提供可被信赖的飞行识别与调配功能并完成相应系统模块程序的编写。探究相关的理论知识,该技术理论的研究往往结合航空器的运动学建立相应的数学模型,冲突识别尚可获得相对良好的效果但给出
CT技术因其成像清晰、扫描速度快等特点在临床筛查、病情追踪医学领域得到了广泛应用。CT技术的出现为医生诊断病情提供了有效的参考,但近来有研究表明CT拍摄时产生的辐射会对病人的身体健康带来很大的隐患。因此人们也越来越重视CT技术中的X光带来的危害。研究人员尝试降低辐射剂量来减少对病人身体的危害,但实验结果表明,降低辐射剂量将直接影响图像质量的好坏,因为会导致获取的图像产生噪声和伪影,不利于医生对疾病
十三届全国人大四次会议报告显示,2020年检查机关起诉涉嫌犯罪的未成年人的人数高达3.3万人,恶性案件低龄化的犯罪趋势使得国内对于未成年人骨龄鉴定需求有所增多。在国内的司法领域中,骨龄鉴定作为证据在对嫌疑人判刑方面发挥了巨大的作用。目前国内的骨龄鉴定主要依靠人工鉴定,依赖骨龄计分法对手骨发育进行等级评分得到预测骨龄,其缺点是需提前掌握相关知识并需要进行繁琐的操作,对于非专业人员来说是比较高的门槛,
近年来,民用航空产业进入到了一个高速发展期,未来的空中交通将越来越密集,空中交通管理正成为一个日益重要和复杂的研究领域。4D航迹预测是航空运输系统的核心要素,旨在提高空中交通的运行能力和可预测性,精确的航迹预测可以有效解决空域资源紧张的问题,并在冲突探测与解脱、协同管制等领域具有重要意义。随着数据挖掘与人工智能技术的飞速发展,越来越多的历史航迹数据可用于空域态势分析和监控,将其有效运用于智能空管系
时间性反走样算法具有效率优势,是近年来被广泛应用的实时反走样算法之一。该算法通过将采样点平摊至历史多帧及复用历史数据的方式来实现实时反走样。在时域信息采样充分且历史数据可复用的前提下,该算法能取得和超采样反走样算法类似的效果。然而在实际应用中,上述条件并不一定完全成立。在历史数据不能被复用的情况下,将产生几何走样及重影等问题。除此之外,为了降低显存成本,该算法使用累积帧来代替历史多帧,这将导致误差