雷达智能抗干扰策略学习方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jl88106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为战场上的“千里眼,顺风耳”,雷达在现代战争中扮演着决定战争成败的重要角色。为了对抗雷达,电子对抗(Electronic Countermeasures,ECM)技术应运而生,给雷达有效探测带来了很大的挑战。根据信号的到达方向,可将干扰分为主瓣干扰和副瓣干扰。相较于副瓣干扰,主瓣干扰在接收处理中会获得与目标回波相同的天线增益,难以在空域进行有效抑制。同时,随着认知电子战技术的发展,干扰的智能化水平不断提高,未来的电子战装备将具备学习、适应环境的能力,给雷达抗干扰技术研究提出了更高的要求。为应对主瓣干扰以及智能化干扰带来的挑战,本文从主动和动态对抗的角度出发,研究了基于深度强化学习(Deep Reinforcement Learning,DRL)和博弈论的雷达智能抗干扰策略学习方法。本文的主要工作总结如下:1.针对频率捷变雷达和主瓣压制干扰对抗的问题,提出一种基于DRL的抗主瓣干扰策略学习方法。在电磁博弈过程中,干扰通常采用某种策略并基于截获的雷达信息针对性地采取行动。由于干扰策略的复杂性,基于特定数学模型求解抗干扰策略较为困难。为此,本文将雷达干扰对抗过程建模为马尔可夫决策过程(Markov Decision Process,MDP),并针对性地设计了 MDP中的状态、回报、行动。本文提出基于DRL算法近端策略优化(Proximal Policy Optimization,PPO)求解上述MDP问题。仿真表明,该方法可针对不同干扰策略,通过雷达与干扰交互,自主学习有效的抗干扰策略。此外,针对干扰可能采取多种不同干扰策略的问题,本文在上述方法的基础上提出了一种基于策略蒸馏的统一抗干扰策略学习方法。该方法利用策略蒸馏技术将多种抗干扰策略迁移到一个深度网络中,使得雷达可以同时对抗多种不同的干扰策略。2.针对电磁博弈过程中雷达和干扰感知对手时存在不确定性的问题,提出一种基于模仿学习和 WR2L(Wasserstein Robust Reinforcement Learning,WR2L)的鲁棒抗主瓣干扰策略学习方法。在雷达和干扰交互过程中,雷达需要感知电磁频谱并推断干扰行动,同样,干扰也需要截获雷达信息并测量雷达参数,而这一过程往往存在一定不确定性。如果在训练过程中不考虑不确定性,直接将得到的抗干扰策略应用到电磁博弈中,会导致抗干扰策略的训练环境和测试环境失配,从而引起抗干扰策略性能的下降。本文首先在给定干扰策略的条件下基于模仿学习将该策略转换为由深度网络参数表示的数学形式,并将其作为参考环境动态参数;然后通过摄动参考环境动态参数得到环境动态参数;最后基于WR2L求解以雷达策略参数和环境动态参数为优化变量的maxmin问题,得到针对该干扰策略的鲁棒抗干扰策略。该方法可以提高雷达抗干扰策略的鲁棒性,降低电磁博弈过程中因不理想观测和截获而带来的影响。3.针对雷达和智能化干扰的对抗问题,提出一种基于博弈论的雷达抗干扰策略设计方法。认知电子战的发展使得干扰的智能化水平不断提高。针对这一问题,本文基于博弈论对二者进行建模。具体而言,雷达和干扰为博弈中的玩家,雷达的频域波形和干扰的功率谱密度分别为它们的行动,雷达接收信号和目标随机脉冲响应之间的互信息为效用函数。斯塔柯尔伯格博弈是一种特殊的完美信息扩展形式博弈,在该博弈中,雷达和干扰均可以完美获取关于对手的行动信息,而且行动顺序存在先后关系。针对该博弈,本文分别推导了雷达为leader和干扰为leader时的斯塔柯尔伯格均衡(Stackelberg Equilibrium,SE)策略。在雷达干扰斯塔柯尔伯格博弈基础上,本文分析了对等博弈中纳什均衡存在的条件并指出了此时SE策略的物理意义。4.针对频率捷变雷达和干扰在对抗时存在多轮交互以及不完美信息的问题,提出一种基于神经虚拟自我对局(Neural Fictitious Self-Play,NFSP)的抗干扰策略学习方法。在电磁博弈过程中,雷达和干扰往往存在多轮交互。此外,由于载机平台空间有限,干扰机工作在收发分时模式以实现良好的收发隔离。因此,干扰机不能完全截获雷达信息,雷达和干扰之间的博弈存在不完美信息的问题。为了解决上述问题,本文提出以不完美信息扩展形式博弈为框架对雷达和干扰建模,并以博弈树的形式对雷达和干扰的博弈过程进行描述。在该框架下,本文提出基于NFSP求解雷达和干扰的策略。仿真实验以利用度为评估标准,其结果显示随着训练的进行,雷达和干扰的策略逐渐收敛并达到近似纳什均衡。
其他文献
传统的合成孔径雷达地面运动目标指示(synthetic aperture radar ground moving target indication, SAR-GMTI)欺骗干扰技术,使用两台协同干扰机,能够生成逼真的虚假运动目标,但当生成密集虚假运动目标时,干扰机所需计算量太大,无法满足电子战中实时生成干扰信号的要求。因此,本文提出了一种密集虚假运动目标快速生成算法。该算法通过对双干扰机生成的虚
进入高等教育普及化时代,招生规模的扩大与就业压力的激增,客观上要求本科教育的定位不得不做新的调整,由面向少数人的特权向更多人的权利过渡。因此,尊重本科生的学习选择权利,增强其专业与课程学习的社会适应性,强化培养方案与课程结构的弹性,满足学生个性化、多样性与差别化发展,是当前本科教育改革的基本方向。结合欧美本科教育课程体系的比较,发现我国本科教育存在学分要求总量大、课程门数过多、内容庞杂现象,导致学
随着我国义务教育从初步均衡到基本均衡、再到优质均衡的有序推进,师资均衡作为义务教育均衡发展的关键不断地调适着其目标。作为连接政策目标与结果的桥梁,义务教育师资均衡配置政策工具随着不均衡问题的改变、目标的变化、效果的评估等不断调整着其优势选择,是多种特定因素共同作用的结果。总体上,义务教育师资均衡配置政策工具遵循着“创造性的渐进主义”,历经了三个发展阶段,每个阶段都有其优势组合的工具选择以解决相应的
时代变革导致社会理论的空间转向。教育作为一项重要的社会活动,同样需要关注空间。教育空间因其教育性而具有独特性。教育空间是物质空间(自然地理和人造环境)和人的教育活动共同构成的特定空间,既包含作为互动场景的物质区域,也是教育活动与物质区域相互结合运作的结果。教育空间具有地理、社会、文化等属性,构成彰显教育空间物质性的地理形态、教育空间关系性的社会形态以及教育空间精神性的文化形态。教育研究的空间转向可
积极应对人口老龄化是中国特色社会主义进入新时代的重要国家战略。在快速、深度老龄化进程中,第三人侵害老年人权益现象日益凸显。由于老年人自身的弱势性以及家庭在老年人权益维护方面日渐式微,老年人权益对国家保护义务的依赖性不断增强。国家保护义务旨在保护公民权益免受第三人的侵害,要求国家通过建立并有效运行保护义务机制介入侵权者与被侵权者之间,保护弱势方的合法权益。国家保护义务机制包括事先、事中与事后三个层面
从2018年到2021年,“蜀中桃子姐”的短视频经历了明显的叙事变迁:一方面,视频时间由短及长,节奏由快到慢,结构从递进式讲解转向散文式表达;另一方面,视频内容也从情节单薄、场景单一的美食教程发展为细节丰富、空间显露的乡村生活纪事。整体来看,“蜀中桃子姐”的短视频采用的生活化、真实化、主体化的叙事策略为其带来了受众量与点赞量的成倍增长,这为其他乡村美食类短视频的内容创作提供了有益参考,也展示出乡村
<正>中国共产党的领导是中国特色社会主义最本质的特征。没有共产党,就没有新中国,就没有新中国高等教育的繁荣发展。坚持中国共产党的领导,是走好建设中国特色、世界一流大学新路的根本保证。作为创造、汇聚、弘扬、传播科学文化知识的学术殿堂,高校肩负着文化传承创新的职责使命;作为人才培养的摇篮,又肩负着立德树人的重大责任。对此,习近平总书记在2022年4月25日考察中国人民大学时对如何建设中国特色、世界一流
期刊
速度构成了现代性的核心,它承载着个人梦想、规划和美好生活的实现与社会的文明进步。现代性条件下的教育也在以其特有的方式追求着速度,速度逻辑影响着现代性教育的基本运行。现代教育对速度的追求表现为绩效导向的考评机制、理性进步的知识偏好、时间焦虑的内心体验。速度逻辑作用下的现代性教育具有重大历史意义却也引发了严重的后果,速度技术空间抑制原初本真空间、技术合理性遮蔽价值合理性、社会时间对生命时间的宰制,这将
抖音美食类短视频是抖音短视频内容生态系统的核心构成,在受众、平台、文化、市场、技术等的多元影响下,形成了独特的生产机制,在满足受众知识、情感、价值等多维诉求的过程中,释放了巨大的传播效能。本文通过对抖音美食类短视频生产内驱动力与现状问题的审视,明确其作用机制及发展困境,并针对性提出优化对策,期望能为生产者、平台、广告主等主体提供有益借鉴,从而拓宽其未来发展路径,进一步挖掘释放潜在效能,助推融媒体时
近年来,随着移动短视频的快速兴起和人们对美好生活需要的追求,探店类美食抖音号迅猛发展。抖音于2016年9月上线,自上线起发展迅速,日活用户逐年激增,目前已逼近6亿。在抖音短视频的诸多垂直细分领域中,探店类美食抖音号因内容贴近生活、受众群体广泛而成为热门类型之一。与一、二线城市的发展相对成熟、粉丝众多、收益可观的抖音大号不同,国内一些四线城市的探店类美食抖音号仍然处于初级发展阶段。文章分析粉丝经济背