基于深度强化学习的无人机对抗机动决策

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户：jayden1986

【摘要】

：

【作者】

：

吴佳晖

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

制空权的争夺是现代军事对抗中的核心问题。随着无人战斗机各方面技术的发展,无人战斗机在空战中逐渐成为制空权争夺的关键因素。无人机的智能化水平是影响自主作战胜负的关键因素,其中自主决策要求无人机在复杂的空战环境下,感知获取空战态势,并实时做出有效的机动决策。经过几十年的发展,空战决策技术中已经形成了以微分对策、矩阵对策为代表的基于对策理论的决策方法和以影响图法、专家系统为代表的基于专家知识的决策方法以及以神经网络、遗传算法、近似动态规划方法为代表的启发式机动决策方法。近年来,深度强化学习在决策领域飞速发展,相比较于传统的强化学习方法,深度强化学习能有效解决大规模状态空间的连续决策问题。本文基于深度强化学习理论对无人机对抗机动决策展开研究,主要的工作如下:（1）本文开篇详细阐述了无人机对抗机动决策技术的研究与应用需求,通过对国内外研究现状的分析归纳总结了各机动决策方法的优势与不足。（2）本文对强化学习理论进行详细的介绍,通过对强化学习常用方法与常用探索策略的介绍,明确各方法的优势与不足,并根据存在的问题,将E-value方法与（?）-greedy方法结合对经典Q-learning算法进行改进,并在仿真实验中验证了改进的Q-learning算法的性能。（3）本文结合空中格斗问题中的基本要素和典型空战过程,在复杂的战场环境下,抽象出格斗问题的状态空间;基于能量机动理论,对空中格斗问题进行态势评估并完成基于动能、势能及角度相关的奖励函数的设计;结合神经网络对空中格斗问题中大规模的状态空间的动作值函数进行拟合,并基于E-value与（?）-greedy结合的探索策略实现强化学习过程中探索与利用的平衡,提高了空中格斗算法的收敛速度。（4）在仿真实验中,验证了本文提出的算法能实时对战场态势进行阅读并依此进行长期的战术规划,并将本文算法与传统的衰减（?）-greedy探索策略的强化学习机动决策算法相比较,证明本文算法在学习效率与准确率方面具备一定优越性。

其他文献

基于深度强化学习的智能车驾驶行为决策研究

随着人工智能技术的快速发展,汽车的智能化水平与日俱增,结构化道路作为最常见和最重要的交通场景,是实现自动驾驶典型的应用场景。在自动驾驶技术中,智能车的驾驶行为决策一直是研究的热点和难点,目前主流的决策方法主要基于专家规则,缺少对环境的适应性和泛化性。本文以智能车为研究对象,基于结构化道路交通环境,面向直道、并道以及环岛三种典型场景,针对智能车行为决策的特殊性和环境的多样性,提出了两种基于深度强化学

学位

无线电能传输系统Tube模型预测控制研究

电动汽车因其安全可靠、能源充足、污染气体零排放等优点受到了社会各界人士的广泛关注。无线电能传输技术可以解决充电难、储能慢、续航短、电池容量小等限制了电动汽车普及的问题,但抗干扰能力弱、功率波动大、可靠性低等缺点局限了该技术的应用。为了增强抗干扰能力、减小功率波动、提高可靠性,本文分析并设计了无线电能传输系统,并深入研究了系统特性和控制策略。本文的主要研究内容如下:分析了无线电能传输系统的电气特性以

学位

基于一致性估计的半监督学习方法研究

深度学习在计算机视觉、自然语言处理、语音信号识别等领域都取得了成功。在有限的样本下训练深度学习模型通常会遇到过拟合的问题,而增加数据量是缓解过拟合的有效手段。然而在实际中利用人工标注数据往往是代价昂贵的,因此需要设计有效的半监督学习方法利用未标记数据进一步提升模型的泛化能力。本文针对半监督分类任务,对传统的一致性估计方法进行了研究,主要研究内容如下:（1）Temporal Ensembling模型

学位

基于分解和集成的风速超短期预测研究

要达到可持续发展的目标可以通过对可再生能源的有效管理来实现,其中,风能作为最有前景的可再生能源之一,以其可再生性和可持续性受到世界各国的关注。随着风电系统在电网中所占比例的急剧提升,准确的风速预测对风力发电机组的稳定运行,对风电的利用和并网都是至关重要。然而,风速的灵活性和间歇性使得准确的风速预测成为一项具有挑战性的任务,基于此,提出了一个基于分解和集成的风速超短期预测模型。所提出的风速超短期预测

学位

基于双目视觉的自动泊车系统研究

自动泊车系统作为高级辅助驾驶系统的重要组成部分,随着无人驾驶技术的发展其应用市场与研究前景也愈发广阔。根据自动泊车系统运行阶段的不同,本文将其按功能划分为可停车位检测与车辆控制两部分,前者负责在车辆行驶过程中搜寻可停车位坐标,后者包含路径规划、车辆定位和路径跟踪,负责在规划泊车路径后根据车辆与车位之间的相对位置关系控制车辆完成泊车。针对以往研究中感知设备在车位检测中的局限性,本文设计一种基于双目相

学位

数据驱动的工业过程故障诊断方法研究

工业生产过程在国民经济中占有重要地位,但是工业过程的复杂度、自动化程度和集成度不断提高导致工业过程发生故障的可能性也越来越大,因此对于工业过程的监测是十分必要的。但是对于传统的故障检测与诊断方法还存在以下问题:（1）传统的基于欧氏距离相似度为判别标准的多模主成分分析方法没有考虑到负载矩阵中向量的方向性,导致判别结果错误;（2）传统的两步主成分分析方法假设变量之间是线性关系以及数据服从高斯分布,但是

学位

电容式电压互感器计量误差智能预测研究

电容式电压互感器（Capacitor Voltage Transformer,CVT）作为电能测量系统的重要组成单元,其计量误差是影响电能交易公平性的重要参数。目前对CVT计量误差的研究集中在误差监测方法上,而忽略了误差预测对准确计量和设备运维的重要意义。因此,本文提出了CVT计量误差智能预测方法,主要内容如下。首先,进行了CVT计量误差影响因素的机理分析。以CVT的电路结构为基础,分析了CVT计

学位

基于特征增强和自适应分割的集装箱文本识别算法研究

研发集装箱后箱面净重、毛重等文本信息的识别技术是提高码头集装箱装卸效率,实现堆场作业自动化和智能化的关键环节。目前该领域现有识别算法主要以桥吊、闸口等位置的箱号为研究对象,但在堆场环境下,后箱面重量、体积等多类型密集排布的文本识别问题仍处于研究阶段。本文针对堆场集装箱后箱面的重量文本、体积文本及箱号文本识别任务展开研究,以开发鲁棒性强、精度高和速度快的算法为目标。在像素级分割的文本检测框架下,提出

学位

融合视觉与激光雷达的SLAM技术研究与应用

随着无人驾驶概念的普及,社会对自主移动智能设备的需求日益增加。同时定位与建图（Simultaneous Localization And Mapping,SLAM）作为实现智能设备自主移动的关键技术,对其构建地图的精度要求越来越高。本文着眼于地图精度的提升,提出了一种融合视觉与激光雷达的SLAM算法。主要研究内容如下:首先,对视觉SLAM算法进行了研究。通过研究视觉SLAM算法中的视觉里程计与后端

学位

直立抗扰任务下踝关节外骨骼阻抗控制策略研究

外骨骼能够有效提高人体运动能力,比如:辅助患者运动康复、帮助老年人行走、帮助士兵负重行军等。运动过程中,外界干扰不可避免,外骨骼和人体如何共同应对外界扰动,保持身体平衡,是非常重要的研究课题。人体神经-肌肉-骨骼系统非常复杂,很难建立其精确的动力学模型。外界干扰具有偶发性质,与行走、奔跑类周期性动作不同,很难定义一个通用的模版。因此,在人机协作过程中,外骨骼控制缺乏对协作对象（人体）和协作任务（抗

学位

基于深度强化学习的无人机对抗机动决策

与本文相关的学术论文