面向对抗任务的无人机集群智能协同策略研究

来源 :西安工业大学 | 被引量 : 0次 | 上传用户:linyasa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的飞速发展,无人机自主控制决策已成为现代智能空战的核心内容,是当今军事领域最受关注的研究课题。本文以博弈论为基础,结合深度强化学习等计算方法,对不同作战条件下的无人机智能协同策略展开了深入研究,重点研究内容包括:针对动态环境下无人机一对一近距空战的对抗场景,因其博弈态势瞬息万变且决策过程复杂,提出了一种带有免疫导引策略的Minimax-DDQN((Minimax-Double Deep QNetwork))智能决策方法。将强化学习和博弈论相结合,提高了系统的自主学习能力和处理复杂状态特征的能力。首先,结合免疫导引策略和Minimax策略训练DDQN神经网络,使其能够针对敌方机动实时地输出最优策略;其次,通过经验回放技术,解决了训练样本之间的关联性问题,提高训练效率;最后,搭建了三维空间中的空战对抗仿真环境。仿真结果表明,在追击直线机动的敌机时,本文所提算法比传统的DDQN、Minimax-DQN算法成功率分别提高了60%和33%。且在与采用Minimax-DDQN算法的敌机对抗时,最终胜率可达60%。证明了所提决策算法的有效性和优越性。针对敌方策略未知时无人机主动防御的协同三体对抗场景,传统的方法需要提前获得敌方的控制策略,因此,本文提出了基于微分博弈模型的启发式自适应动态规划算法(Adaptive Heuristic Dynamic Programming,AHDP)来求解攻防策略。首先,构建了进攻无人机-目标-防御无人机三体攻防博弈问题下的微分对策模型,对抗情景包括零和博弈与非零和博弈。其次,对对抗双方无人机设计启发式自适应动态规划算法,利用动态对抗信息迭代更新评价网络和执行网络的参数,求解最优性能指标函数。仿真通过与传统PN、APN、ADP方法对比,验证了AHDP方法在侧方、迎面、尾追三种攻击态势下的准确性和高效性,目标无人机和防御无人机有很好的协同性,防御无人机可以成功拦截进攻无人机。针对在大规模集群间的无人机协同攻防对抗场景,提出了神经-内分泌-免疫机制启发下的随机博弈(Neural-endocrine-immune mechanism-inspired random game,NISG)模型,并利用无人机集群近端策略优化(UAV Swarm Proximal Policy Optimization,USPPO)算法求解对抗策略。该模型受生物机理的启发,对集群对抗系统中无人机感知的态势信息进行聚合,构建了无人机之间的随机博弈行为,从而有效地提高群体的攻防效率。根据强化学习的思想,提出了一种适用于无人机集群的USPPO学习算法,通过集中式训练和分布式执行,用于生成大型无人机群的对抗策略。仿真结果表明,该算法能够有效地模拟复杂的群体涌现行为,并且比MADDPG及改进的MAPPO学习算法平均奖励更高,且在与改进的MAPPO的对抗中,胜率达74.6%,从而更好地满足大型无人机群体对抗的需求。
其他文献
结构光三维重建利用光学编码技术获取被测物体的三维数据,具有成本低、结构简单、精度高等优点。因此,该技术被广泛应用于逆向工程、文物修复、人脸识别等领域,具有重要的理论意义和研究价值。然而,传统的空间结构光编码方法在高分辨率测量方面存在局限,需要寻求更加高效的测量方式。另外,时间编码结构光测量方法虽然可以实现高精度测量,但不适用于动态场景的三维测量需求。为解决这些问题,本文提出了基于时间编码和空间编码
学位
自动驾驶车辆可以通过传感器感知周围障碍物的位置并识别出类别信息,根据这些信息做出相应的决策,从而安全和顺畅地行驶。调频连续波激光雷达由于其探测灵敏度高、距离分辨力高、不存在距离盲区、抗干扰能力强等优点,成为了最具潜力的自动驾驶系统高质量三维点云图像传感器。但是由于调频连续波激光雷达获取的三维点云冗余数据多、数据量大导致目标识别的实时性差,以及不同目标之间的相互遮挡造成目标识别难度大。针对以上问题,
学位
地震灾害是人类生存中最危险的自然灾害之一,而建筑物作为灾害损毁的重要承载体和人类生存状态表征,及时获取其信息对灾后的救援和重建具有十分重要的实际意义。在建筑物震害信息提取过程中,传统的人工设计方法存在提取震害特征单一,精度较低等问题,而基于深度学习理论的方法能够从少量的预处理或未经处理的震害影像数据中学习到较高级的震害特征表达,为震害影像检测提供了新的技术思路。因此,本文采用深度学习方法完成建筑物
学位
贝叶斯网络(Bayesian Network,BN)是一种图论与概率统计相联结的建模工具,目前已经被广泛地应用在机器学习、数据挖掘以及目标识别等领域。在BN学习中,结构学习是参数学习和推理的基础,因此也是BN研究的重点和难点。在贝叶斯网络结构学习中,依据搜索空间的不同可分为网络结构空间和节点序空间下的搜索算法。与网络空间下的搜索算法相比,基于节点序的搜索算法的搜索空间更小,所以其搜索效率更高。然而
学位
无线通信技术突飞猛进,应用越来越广泛。然而,无线信道传输的信息容易受到干扰或者被截获,从而造成安全隐患。隐蔽通信是力图将通信信号隐藏起来,让敌对方很难感知到通信信号。隐蔽通信通常有两种方式:低截获概率(Low Probability of Intercept,LPI)和低检测概率(Low Probability of Detection,LPD),其中LPD是比较常用的技术,其主要实现方式是采用直
学位
随着现代移动通信技术的飞速发展,人们对其流量要求也越来越高。可见光通信(Visible Light Communication,VLC)不仅具有丰富的频谱资源,还可在进行照明的同时传送信息,同正交频分复用技术(Orthogonal Frequency Division Multiplexing,OFDM)组合可显著改善系统通信特性,但是存在噪声频偏干扰和较高的峰均比等问题,从而降低系统性能。为此,
学位
由于近年来我国对海洋探索的不断深入,水声通信技术受到广泛关注。而水声信道的通信环境十分恶劣,其中,多径效应导致水声信道中声信号衰减和失真严重。为了克服这类信道问题,通常会在接收端使用均衡器对信道特性进行补偿,以消除信道引起的影响,即信道均衡技术。本文提出了一种基于启发式神经网络的水声信道均衡算法,该算法利用神经网络的非线性和启发式算法的优化能力,其通信质量相较于传统均衡算法有着明显的提升。首先,针
学位
随着信息时代的快速发展,人们对图像清晰度的要求越来越高,图像分辨率越高,图像中的信息层次越丰富,有利于人们获取更全面的信息。受采集设备和环境等现实因素的影响,导致获取的图像分辨率不佳。使用硬件设备改善图像分辨率成本高,不利于操作,使用软件实现的超分辨率重建技术不仅节约成本而且效果更好,使得应用范围越来越广泛。针对现有的图像超分辨率重建算法对图像细节信息提取不全面的问题,本文以此为切入点展开研究,主
学位
随着无线通信技术的不断发展,对高频滤波器的性能提出了许多更高要求。同时由于多种无线通信系统共存,因此所研究和设计高频滤波器需要工作在多个频段。然而,各种无线通信设备使用导致现在的电磁环境日益复杂。差分电路有良好的抗干扰性能,因此受到了许多学者的青睐。为了设计出选择性高和抗干扰能力强的滤波器,本文提出了三款单端基于非对称开路枝节加载谐振器的高选择性双频段微带带通滤波器和一款基于非对称短路枝节加载谐振
学位
在室内可见光通信(Visible Light Communication,VLC)中引入非正交多址接入(Non-orthogonal Multiple Access,NOMA)技术是实现多用户通信及组网应用的有效途径。针对NOMA-VLC系统易受信道环境影响、用户间存在相互干扰、用户间公平性难以保证所带来的通信性能问题,论文结合Turbo码技术与压缩感知(Compressed Sensing,CS
学位