基于强化学习的无人机对抗决策研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:kvkv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着电子信息技术的高速发展,无人作战飞机(UCAVs)凭借其出色的作战能力和低维护成本,成为了世界各国在信息战上的焦点。无人机自出现后已经改变了现代战争形式,也已经发展出多种多样的军事用途,而具有低成本特性、能够协同作战的无人机集群将在未来战争中发挥优势,是未来战争中的关键。而未来战场中信息量爆炸,无人机能否获得有效的战场态势信息,形成有利的决策是无人机对抗研究中的基础和重点。应用强化学习方法的无人机能够通过态势感知自主地做出决策,在不断获取战场态势和做出决策的循环中,强化学习无人机能学习战场态势从而改善决策策略,深度强化学习的出现能进一步使强化学习无人机感知战场态势的能力得以加强。本文主要研究的是基于强化学习的无人机决策算法,主要的工作为以下三个方面:(1)详细介绍了马尔可夫决策过程等强化学习系统中的基本理论,并以一个简单的强化学习系统讲述探索与利用的困境问题,并分析强化学习与监督学习和无监督学习的联系和不同。通过分类分析现代强化学习形成过程中的算法和描述了其发展中的关键时间点,引出对强化学习中普遍应用算法的介绍,同时介绍了目前各领域中强化学习算法的应用情况。(2)完成了战场态势建模和基于Python、使用Pygame模块的无人对抗机仿真软件平台的设计和搭建。仿真软件能够生成敌方无人机的路径、显示无人机对抗的场景和用态势感知模块收集敌方无人机和我方无人机的数据并分析态势信息,将智能体独立于我方无人机的方式,能够使用不同的决策算法进行实验。通过进行基于Qlearning的无人机对抗决策算法实验,以敌方无人机为中心将战场空间离散化,将我方无人机和敌方无人机的相对距离、水平转角等信息作为算法的输入,验证了仿真软件平台的可行性。(3)介绍深度Q网络和优先经验回放的深度Q网络,详细分析了经验回放机制和基于其改进的优先经验回放机制。在无人机对抗决策的背景下,基于深度Q网络和带有优先经验回放的深度Q网络算法,提出了根据轨迹信息的探索与利用模型和基于态势等级跳变的优先经验回放算法。通过在自建的仿真软件中模拟无人机对抗,对比了改进前后的无人机对抗决策算法,验证了算法的有效性。
其他文献
<正>(接上期)2.克孜尔第14窟伎乐天人图中的琵琶第14窟为一面积不大的方形窟,由于洞窟位置较高,破坏不甚严重,尤其窟顶壁画保存较好。根据该窟壁画的题材内容及绘画风格,参照毗邻洞窟碳-14测定数据,证明该窟应属克孜尔中期洞窟。
期刊
随着互联网的发展,软件开发的需求与日俱增,Web API的调用已经成为软件开发必可不少的一种方式。Web API是一些预定义的功能,它向软件开发人员提供了一系列的接口,有了Web API,软件开发人员可以根据自己的需求直接调用并组合Web API而无需了解其内部细节。但是,由于软件库中的Web API数量庞大,开发人员无法熟悉所有Web API并始终为特定的开发任务选择正确的Web API,因此W
学位
近年来传感器的精度不断提高,可以获得关于目标的多个量测,这使得扩展目标跟踪逐渐成为了研究热点,即既跟踪目标质心的运动状态,又估计跟踪目标的形状。随机集理论下的滤波器避免了复杂的数据关联,且精度较高,受到国内外学者的青睐。本文以随机集理论的泊松多伯努利混合(PMBM)滤波器为基础,在三维空间中,对扩展目标跟踪中的目标形状估计进行了研究,主要工作内容如下:(1)针对三维扩展目标形状估计中存在对量测数量
学位
传统的多目标跟踪算法都是根据点目标的假设,即在一次扫描中对单个目标只会形成至多一个点量测。由于激光雷达等新硬件的发展,每一个目标将会可能产生多个量测,目标的形状和范围将变得不可忽视,在对目标质心跟踪的同时,还要对目标的形状与范围等信息进行估计,由此产生了扩展目标跟踪问题。目前,扩展目标跟踪技术已经越来越多的应用于如室内外定位,自动驾驶,环境感知等领域。近年来,随着对随机有限集理论的进一步深入研究,
学位
目标检测作为深度学习的一个重要分支,已经被广泛应用于智能交通、工业质检和自动驾驶等领域,创造了巨大的经济价值,降低了人工成本。近年来对目标检测网络的改进主要集中在网络结构、数据预处理等方面,忽略了网络超参数的重要性。实验表明目标检测神经网络对超参数敏感,为了得到适应具体场景的最佳参数,往往需要耗费研究者大量的精力。因此,设计针对神经网络特点的高效超参数优化方法意义重大。本文对目标检测网络中的锚点超
学位
随着信息化的加速,新能源汽车、5G、人工智能和元宇宙等新兴产业蓬勃发展,电源管理芯片的应用场景更加广泛,各行业对电源的品质要求也越发严格,目前开关电源朝着高效低能耗、高功率密度、控制数字化、智能化和抗电磁干扰的方向发展。本文结合车载系统、通信电子及工业控制等应用场景,针对主流开关电源芯片存在的工作效率低下、系统瞬态响应速度慢和保护电路不够灵活等亟需解决的问题,进行了环路补偿优化、高效率和瞬态响应增
学位
近年来,步态识别领域的研究受到了学术界的极大重视。早期的步态识别算法通常基于计算机视觉或压力传感器,随着微机电系统(Micro Electro Mechanical System,MEMS)技术的发展,基于MEMS惯性传感器进行步态识别已经成为主流。步态识别是从惯性传感器数据中提取不同步态类型的特征,以识别受试者的运动状态。步态识别算法通常基于机器学习或深度学习,目前的研究大多采用卷积神经网络提取
学位
随着计算机硬件能力的提升和计算机视觉理论体系的不断完善,SLAM技术得以快速发展。目前视觉SLAM系统中以基于特征点法的前端作为主流,特征点法鲁棒性好,对环境、光照、动态物体不敏感,是现在比较完善的前端方案。但是当图像中提取不到足够的特征信息或者特征匹配效果较差时,系统后续的位姿估计准确度会受到很大的影响,甚至出现跟踪丢失的现象。针对特征点法存在的问题,本文对其做出改进,并提出针对多特征场景的视觉
学位
在智能化立体车库中,RGV作为重要的车辆运载装备,其运行精度、稳定性要求较高。传统RGV控制主要关注RGV软启动,定位准确性,对于柔性加减速控制关注较少。当前的加减速算法包括直线加减速法、指数加减速法、多项式加减速法、抛物线加减速法、S曲线加减速法等算法,存在加速度突变,不能体现柔性加减速的思想,或者算法复杂需要消耗控制器大量逻辑运算时间,抑或固定在控制器参数不方便调节。为此建立基于PLC控制的两
期刊
随着航天技术的发展和相关应用的深入,卫星等空间目标的数量日益增加,空间目标监测的重要性不断提高。而随着空间态势感知能力的提升,监测任务已不再局限于探测和跟踪,在轨姿态作为反映空间目标运动状态的重要参数,也受到了越来越多的关注。逆合成孔径雷达(Inverse Synthetic Aperture Radar,ISAR)具有全天时、全天候、远距离探测的能力,可以对目标进行高分辨率二维成像,获取目标的形
学位