基于多智能体强化学习算法的无人机集群对抗任务研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:yanzixu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着无人机集群技术和人工智能理论的发展,无人机集群智能化作战将成为未来的重要作战模式。如何实现无人机集群的智能化以及如何以集群对抗的方式有效应对来袭的无人机集群,是目前亟需研究和解决的问题。针对以上问题,本文基于多智能体强化学习理论开展无人机集群对抗任务的研究,通过无人机对抗任务分析、无人机运动和对抗建模、无人机对抗仿真实验等方法,实现了无人机集群智能对抗。在此基础上,本文又提出了基于规则约束的无人机对抗方法和目标分配耦合多智能体强化学习方法,有效提升无人机集群整体的合作与对抗能力。本文的主要研究内容包括:1、本文对无人机的运动和对抗过程建模,构建了无人机集群智能对抗仿真环境,并基于MADDPG、M3DDPG、MATD3算法训练出了具有一定对抗能力的无人机智能体,能够应对敌方无人机集群的攻击。针对无人机智能体在运动过程中存在互相碰撞的问题,我们通过为无人机智能体设计合理的奖励函数,有效解决无人机的碰撞问题。经过训练后,无人机整体对抗胜率得到了一定提升。2、针对难以设计合适的奖励函数解决无人机智能体在对抗中存在速度控制不准、攻击角选择不好等问题,本文通过借鉴人类空战经验,提出了一种基于规则约束的无人机对抗方法(RC-MADDPG)。我们为无人机智能体制定了速度控制规则和航向控制规则,将其与MADDPG算法进行结合,实现对智能体选择的动作产生约束。实验结果表明该方法能够有效提升无人机集群的对抗能力。3、针对无人机智能体在对抗过程中,面对众多的目标难以进行合理选择的问题,本文根据无人机智能体具有自主学习的特点,提出一种基于目标分配的无人机对抗方法(TA-RCMADDPG)。该方法首先基于拍卖算法建立n对n型和n对m型目标分配模型,然后利用无人机智能体在接收奖励信息过程中产生的时间差,将目标分配模型嵌入智能体的奖励函数,完成无人机的目标分配。通过训练后,实验结果表明该方法能够令无人机智能体实现自主目标分配,从而提升无人机的合作能力和集群的对抗能力。通过实验验证,本文提出的基于规则约束的无人机对抗方法和基于目标分配的无人机对抗方法,能有效提升无人机的合作能力和集群对抗能力,为实现无人机集群智能对抗提供了新的途径。
其他文献
随着资本市场和监管体系的发展,管理者偏好通过真实盈余管理来操控会计信息。真实盈余管理会严重损害公司的长远发展,但其具备较强的隐蔽性特征,因此管理者通常会选择真实盈余管理来干预会计信息,以避免被监管部门发现。为解决该问题,需要深入了解管理者进行真实盈余管理的根本原因,分析其背后动机。面对内外部机制的各种激励和压力,管理者为了保住职位会做出有利于个人利益的决策,这便是管理防御。出于管理防御动机,管理者
学位
“债券通”是中国债券市场对外开放进程的重要里程碑,也是金融供给侧结构性改革的必要举措,服务于实体经济是其主要着力点。于2017年7月3日正式上线运行的“北向通”,是“债券通”政策得以落地的标志。“债券通”是一种境内外互联互通的运行机制,其互联互通的便利性特征简化了境外投资者参与中国银行间债券市场进行债券投资的流程。“债券通”的运行为境内市场注入更多活力,仅上线四年就成功吸引大批境外投资者,为境内市
学位
多无人机协同跟踪技术是智能无人集群系统中的一个重点技术,该技术可以广泛应用于实际应用场景中,如播洒农药、人工降雨、地表温度采集等应用场景。多无人机协同跟踪为人力无法执行的复杂场景任务提供了有效的解决方案。目前,多无人机协同跟踪问题中存在三个主要的挑战:如何同时保证目标跟踪算法的实时性、准确性和鲁棒性;如何在相机标定条件不足,无法获得准确相机内参的场景下,保证目标定位算法依然能够准确定位目标;如何在
学位
多目标动态规划是智能无人集群系统协同任务控制中的一个典型问题。多目标动态规划技术可以广泛应用于无人机集群的协同目标跟踪、协同目标打击、协同送货以及协同目标搜索等应用当中,能够为这些应用任务高效完成提供有效支持。多目标动态规划问题最主要的挑战是:如何在一定约束条件下,以最优的方式,在智能体集群中合理分配目标,规划出所有智能体的无碰撞路径,使得整个任务完成代价最小化,即在保证低碰撞概率的同时,寻找最短
学位
近年来,通信业务的不断升级以及用户终端数量的持续增加,对无线通信技术提出了更高的挑战。作为无线通信技术的关键基础,无线通信环境认知技术对于提升通信性能以及提高资源利用率至关重要。频谱感知技术和无线传播模型是无线通信环境认知技术中的关键部分,频谱感知技术能够为通信节点找到空闲可用信道,从而避免干扰,是保证通信系统高效工作的前提;无线传播模型可以准确评估通信链路的传输损耗,从而为通信参数的选择提供关键
学位
2017年7月3日,“债券北向通”正式施行,通过该制度安排中国香港以及境外的机构投资者能够更加便捷高效地投资于内地银行间债券市场,同时也为缓解公司的融资困境提供了新渠道,“债券北向通”是我国加快资本市场开放进程的关键举措。资本市场开放对公司治理机制的作用效果是其经济后果相关文献中的研究热点,高管薪酬激励作为内部治理的重要设计,可能会受到我国资本市场开放政策的影响。资本市场开放主要包括股票市场开放和
学位
超分辨率作为计算机视觉领域的热门研究方向,受到了研究者们的广泛关注。超分辨率工作的目的是通过技术手段将原本分辨率较低的图像、视频等重构为高分辨率的图像、视频。超分辨率的重构方法在初期是采用传统的数学方法进行重构,随着深度学习方法的广泛应用,深度学习方法也被应用在超分辨率领域并取得了良好的重构效果。目前超分辨率工作主要利用单一模型对图像进行重构,而通过实验我们发现单一模型往往无法满足不同图像的重构需
学位
随着制造产业飞速发展,对产品的生产快速化与测量准确化的要求也在日益提高。计算机视觉技术的问世,使得非接触、实时高效、高精度的产品测量技术在实际生产中得以广泛应用。基于多视角几何的高精度测量得益于将模板CAD模型对准目标对象的多视图观测。它不仅改进了多相机标定校准,而且可以作为“支架”辅助测量。一种简单的方法是重建目标对象并与CAD模型进行三维配准。然而,这种三维配准的精度不能满足高精度的要求。本文
学位
股权质押主要体现为公司进行融资的一种选择,其能够补偿公司现金流,改善企业的经营现状,缓解企业因资金短缺而造成的财务困境。并且,股权质押在进行融资时速度较快、所需成本较低,在企业融资过程中凸显出较大的便利性,从而逐渐成为深受企业控股股东欢迎的一种融资方式。但是股权质押行为也为企业带来了一定的风险,比如在违规操作下强制平仓和控制权转移的风险。在一系列的爆仓事件中,股权质押所带来的风险也引起人们的关注。
学位
565年,晚期罗马帝国皇帝查士丁尼一世去世,皇帝的外甥查士丁二世继位。查士丁二世自视甚高却无治国之才。573年,在贸然开启与东部波斯的战争后不久,帝国便开始丢城失地,东部要塞达拉城更失陷于敌军之手。后查士丁尼时代的帝国实力根本无力支撑皇帝不切实际的“雄心壮志”。达拉的陷落令查士丁二世骤然精神崩溃并陷入疯癫状态。此后,查士丁二世不仅在余生中饱受病痛折磨,而且丧失了对帝国最高权力的掌控,同时加剧了晚期
期刊