基于OODA环和动态图强化学习的作战辅助决策研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:jerrylearnsVC
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代网络化的联合作战使战争的复杂性大大提高,作战智能化辅助决策的需求愈发强烈。本文围绕作战网络建模、网络特征提取和基于图强化学习的作战辅助决策等问题展开研究。对于作战网络建模,提出以装备能力为单位的节点模型,解决了拥有复合能力的装备实体的节点建模问题,根据节点间交互关系给出连边模型,得到作战网络的形式化描述。提出广义作战环的概念,包括广义OODA(Observation,Orientation,Decision,Action)环和模体,用以刻画作战网络中的作战任务。基于作战网络模型,提出基于邻接矩阵的逆向BFS算法对广义OODA环进行搜索,并给出利用VF3算法高效搜索作战模体的具体方法;在此基础上,给出了7类作战网络特征的计算方法。针对动态演化的作战网络,提出了基于动态图强化学习的作战决策方法。首先将作战对抗过程建模为马尔可夫决策过程,然后以提取的作战网络特征为基础,设计了基于作战网络的多Q值图神经网络TSDI-GMQN,该神经网络结构对动态变化的作战网络结构和动态变化的动作空间具有良好的适配性。最后,提出了基于作战网络的多Q值优化图强化学习方法TSDI-GMQL,该方法使用二分图最大权匹配KuhnMunkras算法代替传统Q-learning中的贪婪策略用于获取智能体动作,结合TSDIGMQN,对基于作战网络的马尔可夫决策过程进行求解。为了验证提出的算法,基于Anylogic仿真引擎设计开发了联合作战仿真平台,以无人歼击机区域防空场景为例,利用大量仿真对提出的强化学习模型进行训练,在敌方使用专家策略和随机策略两种情况下,对比TSDI-GMQL模型策略与两种最近优先策略的作战能力,验证了本文提出的强化学习框架的有效性和优越性,同时对比了包括TSDI-GMQN在内的4种神经网络结构在相同训练框架下的作战能力,验证了提出的作战网络特征有助于作战决策。
其他文献
图像匹配是机器视觉领域的重要技术之一,其在军事、医疗、测绘遥感等领域应用广泛,但在异源图像匹配任务中,由于模板图与待搜索图之间成像时相、谱段和视角等差异较大,传统算法提取的浅层特征难适应复杂变化场景下的地物特征稳定表达和高精度匹配需求。深度神经网络具有高维特征提取和表达能力,针对异谱段图像匹配面临的特征提取与建模问题,从深度学习的角度出发,设计了基于全卷积网络的双输入异构特征提取模型,采用监督学习
学位
随钻核磁共振测井仪器测量得到自旋回波序列,对呈多指数衰减形式的回波串进行反演可以获取T2谱。井下回波信号通常非常微弱,且受到多种噪声污染,直接反演会严重影响储层信息的准确性。因此,本文研究了一种从低信噪比原始数据中恢复回波信号的去噪方法,包含回波采集电路、噪声生成方法、回波去噪模型三部分工作,后两者基于深度学习理论。通过分析仪器工作时的回波特性,设计了回波采集电路,具有完整的信号处理链路,能够有效
学位
数控机床是工业生产中最为基础的加工设备,被称为“工业母机”。机械运动系统是数控机床的关键组成部件,开展运行状态监控与健康评估研究对保障数控机床的可靠性与高精度运行能力具有重要意义。本文将高精度永磁同步电机伺服系统作为感知器,先从电机驱动系统获取能够反映机械系统运行状态的自传感信号,再结合系统运行特点提取多域特征,然后基于邻近性距离度量方式定量评估系统运行状况,最后制定包含明确含义的状态指标实现系统
学位
近年来,工业机器人的使用为工业制造带来了更多的机遇和空间,极大地缩减了日益高昂的人力成本。目前,仓储物流中大多数流程已实现自动化装配,但是在货物密集分布的分拣场景中,仍需要大量人工的参与。货物分拣的效率直接影响了智能物流的发展。因此,设计一套稳定、安全和高效的货物抓取系统十分重要。论文以仓储物流的货物抓取为应用,设计并实现了一套面向仓储物流的机械臂货物抓取系统。论文将整个系统分为两个子系统,分别是
学位
利用计算机视觉技术进行炮弹炸点检测时,首先需要在图像中检测出炮弹炸点的像素坐标,这是一个前景检测问题,炮弹炸点是前景,自然环境是背景,本文研究炮弹炸点检测场景中的前景检测算法。前景检测领域中,基于背景建模的算法中经典的算法是ViBe(Visual Background Extractor)算法和PAWCS(Pixel-based Adaptive Word Consensus Segmenter)
学位
区域监测旨在通过对离散位置的采样测量,获得所关注的量在目标区域内的空间分布。区域监测在污染物防治、精准农业、环境保护等领域都有着重要的应用价值。如何在保证预测精度的同时,控制多个机器人在最短时间内完成采样,是区域监测的一个关键科学问题。针对该问题,本文就采样点部署、采样点遍历路径规划和多机器人编队跟踪控制等相关算法展开了研究。针对如何保证预测精度的问题,利用高斯过程的特性,计算出了保证预测精度的采
学位
石油工业是我国国民经济的命脉,催化裂化作为石油生产的核心重要环节,保障其运行安全尤为重要。随着网络化和工业化的深度融合,石油工业运行效能大大提升。然而,信息化也将原有物理隔离的独立生产网络暴露在互联网环境中,传统的IT信息安全问题在工控系统逐渐凸显,催化裂化装置安全平稳运行面临新的威胁。作为典型的复杂信息物理系统,炼化装置的运行过程会产生大量多源异构数据,但多源异构数据难以整合为具有统一表达形式的
学位
图像作为一种重要的信息载体,在人类生产生活中发挥着重要的作用。受夜间光照条件不足、成像设备性能等因素影响,在低照度环境下拍摄的图片整体灰度值偏小,细节信息弱化。这样的低质量图片一方面视觉效果差,另一方面会严重影响后续计算机视觉系统的性能。为了提高低照度图像的质量,本文以Retinex模型以及深度学习理论为基础,从有监督和无监督两个角度分别研究了低照度图像增强算法。研究内容如下:低照度图像中耦合的其
学位
随着“中国制造2025”战略的稳步推进以及机器人技术的不断发展,制造业物流正不断朝着智能化的方向发展。传送带上的货物拣选是智能物流场景中的重要环节,其智能化程度直接影响仓储系统的运行效率。因此,设计一套智能、稳定和高效的传送带拣选系统对智能物流的发展有十分重要的意义。针对全自动传送带拣选系统的应用场景及需求,论文设计并实现了基于ROSMATLAB的双臂机器人传送带拣选系统。系统使用功能丰富的机器人
学位
随着科学技术的进步和发展,人们生产生活环境变得日益复杂,单目标问题的解决方案已经难以满足人们的需求。多模态问题的求解过程中可以得到多个最优解,该问题现在已经成为多目标研究的热点。然而目前研究大多专注于解决多模态单目标问题或者单目标多模态问题,对于多模态多目标问题的研究还不够深入。所以,本文选取多目标多模态问题作为研究对象,提出新的求解策略和算法设计方案。本文主要研究工作包括以下三个方面:针对多目标
学位