基于强化学习的无人机集群对抗仿真研究

被引量 : 0次 | 上传用户：focus2316a

【摘要】

：

【机构】

：

西安工业大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着无人机相关技术和人工智能相关理论的不断发展,智能化无人机集群作战成为未来空战的主要作战形式。然而,早期的无人机集群依赖于固定规则编码方法对无人机动作进行设定,因而难以满足复杂多变的战场环境和任务需求。基于强化学习算法可实现无人机动作的自我训练,解决了固定规则编码方法的短板。然而,在对抗过程中,采用现有强化学习算法的智能体易做出低效动作和产生无效探索。针对上述问题,本文在强化学习的理论基础上,重点研究了基于规则引导的和基于目标导向的强化学习方法,并通过设计与构建对抗仿真环境,开展无人机集群对抗仿真研究,力图优化无人机集群的对抗能力和对抗效率。本文具体的研究内容包括:首先本文在某国产军事联合作战推演系统上建立了无人机集群对抗仿真环境。在仿真环境里通过强化学习算法来训练智能体,并依此设计了仿真训练总体功能模块。分别设计了简单、一般和困难的三种不同难度的场景,将DDPG算法和MADDPG算法分别应用于其中。在简单和一般的场景下的无人机集群对抗仿真环境中,DDPG算法和MADDPG算法的胜率均可达到100%,但是在困难场景下,两者胜率皆下降至60%。其次针对无人机在对抗时容易做出低效动作的问题,本文引入根据失败经验总结的规则,将MADDPG算法与规则引导模块相结合,研究了一种基于规则引导的强化学习方法（RGMADDPG）。该方法从引入的角度规则和速度规则出发,为无人机的动作另外编写规则模块,当无人机的状态满足规则模块中的状态时,通过该方法输出动作,否则通过强化学习算法输出动作,两种方法的结合可以使无人机减少探索无效动作并获得更高效的攻击选择,提高了无人机的对抗能力。实验结果表明,在第二章设计的困难场景中使用RG-MADDPG方法的无人机集群对抗胜率能够达到89%,相比MADDPG算法胜率提高29%。最后针对无人机在对抗时容易产生无效探索的问题,本文引入具有附加目标的经验缓冲池,将第三章的RG-MADDPG方法与目标导向方法相结合,研究了一种基于目标导向的强化学习方法（GO-RGMADDPG）。该方法采用事后经验回放的方法,将无人机每一次探索失败的经验都收集起来,这样无人机任意一个状态都有与之对应的目标,每个目标可以获得相应的奖励,从而可以降低无人机的无效探索。以多任务多目标的复杂场景为基础设计不同数量的无人机集群,使用GO-RGMADDPG方法训练。实验结果表明,在红蓝方无人机数量分别为4对4,8对8,16对16和20对20的场景中,对抗胜率均可达到80%,相比RGMADDPG方法平均胜率提高16%。实验结果表明,本文研究的基于规则引导的强化学习方法和基于目标导向的强化学习方法在多任务多目标的复杂场景下均可以达到较高的对抗胜率,证明了其具有较强的对抗能力,同时具有较快的收敛速度,为未来实现无人机集群智能化提供了新的思路。

其他文献

绥德师范学校师生群体在陕西地区的革命活动研究（1923-1935）

陕西省绥德师范学校做为“西北革命策源地”,为中国的革命事业培养了大批杰出人才,该校走出的师生群体立足于陕西地区的实际状况,开展了一系列卓有成效的革命工作,为西北地区党团组织、西北红军、西北革命根据的创建与发展做出了巨大贡献。本文对1923年至1935年该群体在陕西地区的革命活动进行研究。本文从经济、社会、文化环境等方面探究了绥德师范学校的创建背景,分析了绥德师范学校师生群体的群体特征。考察了192

学位

基于博弈学习的无人机集群围捕方法研究

无人机集群协同围捕是无人机集群协同对抗领域的一个典型问题,对时效性和准确性要求较高。本文面向无人机集群对不同规模下智能化目标的协同围捕任务,分析了围捕集群和逃跑目标行为策略之间的关联性及围捕集群中各节点决策选择的相关性,研究了阿波罗尼斯圆、博弈学习、强化学习相关理论,提出了基于博弈论与强化学习的无人机集群协同围捕方法。具体如下:1)分析了围捕无人机和逃跑无人机的运动特性和相互作用关系,建立了基于阿

学位

两栖变质心共轴无人机带载荷动力学建模与控制研究

本文研究一种具有水面漂浮和空中飞行功能的两栖无人机,为满足特定情况的任务需求,提出了一种通过控制内部质量滑块的移动来改变无人机姿态和位置的两栖变质心共轴无人机,该无人机可以实现悬挂载荷以及在水面起降。建立了变质心无人机的数学模型,并对水空两介质下无人机的动态特性进行分析。基于变质心共轴无人机自抗扰控制算法,设计了位置和姿态控制算法。最后对悬挂载荷条件下无人机进行控制算法设计,主要研究内容如下:针对

学位

光纤光栅式振动传感器相位生成载波解调器设计与实现

光纤光栅式振动传感器相比于传统的电感式振动传感器有着众多优势,被广泛应用于各个领域,其测量精度取决于传感器信号的解调精度。相位生成载波（PGC）解调算法因其良好的动态性能常被用于光纤光栅式振动传感器的信号解调,但受到硬件的制约与环境扰动的影响,载波信号的调制深度易发生漂移,导致光纤光栅的拉伸幅值解算存在较大的误差。本文为避免调制深度对相位载波解调算法的干扰,提出了一种相位生成载波-反正切-寻峰（P

学位

PbS量子点复合纳米线硅近红外探测器研究

硅基光电探测器件受限于自身禁带宽度,无法响应1100 nm之后的波段。Pb S量子点复合一维纳米线硅能有效拓展硅基光电探测器的响应波长,是获得原位集成宽光谱硅光探测器件的有效途径。目前,Pb S量子点的制备方法大多采用基于有机金属化合物的溶剂热和配体交换法,由该方法制备出的Pb S量子点均呈现出单分散系特性,即表现出窄带的光吸收和响应特性,很难实现宽波段响应。此外,量子点表面残留大量的有机物配体,

学位

基于压缩感知的数字全息聚焦重建方法研究

数字全息作为一种数字化的全息干涉计量技术,能够实现微结构三维形貌特征的数字记录和数值再现。针对微结构光学元件进行数字全息显微测量时,由于显微物镜的景深有限使得数字全息图的记录效果不佳,影响着全息图衍射再现的波前相位重建结果,导致微光学元件三维形貌的测量精度不高。因此,为了提高微结构光学元件的波前重建质量,开展基于压缩感知数字全息显微测量的波前重建方法研究,主要研究工作及内容如下:为了提高数字全息波

学位

基于LSTM的小样本锂电池寿命预测方法研究

在信息化战争的时代,锂离子电池在军用无人机和各类先进武器设备中应用很广泛,但在使用过程中会由于存储使用不当等问题,造成设备故障以及财力物力的巨大损失,因此对锂电池进行剩余使用寿命（Remaining Useful Life,RUL）预测是十分重要的。考虑到军用武器使用的锂电池寿命循环周期比较长,故而难以获取较多的性能退化数据,因此本文需要在小样本条件下进行锂电池RUL预测分析。针对小样本条件下RU

学位

HgTe量子点光电探测器响应度优化研究

传统的红外光电探测器材料可用于集成焦平面阵列以及硅基读出电路的设计,但复杂的集成过程使得光电探测器制备成本高昂。近些年,随着微纳米技术的发展,出现了很多新型光电探测器材料,例如量子点、纳米线以及新型二维材料等。其中,量子点材料具有独特的尺寸效应、量子限域效应以及液相制备等特性,它是高性能、低成本的光电探测器最有前途的材料之一。与其他的量子点相比,HgTe量子点具有较宽的光谱响应范围,可以满足从可见

学位

基于YOLO与相关滤波的战场士兵检测与跟踪研究

近年来,由于计算机视觉技术的迅猛发展,传统作战方式已不能满足现代战场作战要求,因而多种基于人工智能的热门技术被应用于军事领域,如目标检测、目标跟踪等。这些技术的加持使得智能化武器不断涌现,从而提升了作战效率。随着时间的推移,智能武器的功能变得越来越强大,它们能够有效地识别和打击特定目标。因此,将各种智能武器像人类大脑一样自动识别和跟踪战场环境中的士兵,已成为一项亟待解决的重要难题。本文主要针对战场

学位

基于无人机航拍图像的目标检测算法研究

近年来,随着无人机研发技术的不断成熟,通过无人机机载摄像头拍摄的图片和视频在许多行业领域获得了广泛应用。在军事方面,利用无人机航拍采集的图像可以获取到完整、全面的战场信息,但是如何利用这些图像实现快速、准确的军事目标检测仍是现代战争智能化作战发展要求下亟待解决的问题。随着深度学习的不断发展,目标检测算法的性能不断提升,但是目前主流的检测算法无法克服航拍图像中出现的复杂天气干扰、目标高度变化、尺度不

学位

基于强化学习的无人机集群对抗仿真研究

与本文相关的学术论文