基于强化学习的无人机集群对抗自主决策方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:xiaochongcheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能型自主无人机武器系统是对抗无人机集群攻击的强力武器,无人机平台以实现单个无人机或无人机群体对敌态势最优为目标,以实时运动决策和敌方目标的分配为关键技术。基于多智能体系统的建模与仿真是检验无人机集群系统结构和集群战术的有效手段。以马尔科夫决策过程模型为基础的强化学习,能够解决无人机在不同态势下的序贯决策问题,有助于提升无人机自主能力。论文围绕无人机集群间对抗主题,做以下研究工作:(1)采用多智能体系统建模机制,将单个无人机作为智能体,提出以固定翼无人机凝聚、避障和无人机向敌方目标接近为运动规则,使用无人机运动导航方程描述单个固定翼无人机的运动特性构建无人机集群。为完成两个无人机集群空中对抗建模,借鉴了战斗机空中格斗态势评估方法,应用不同的空战目标分配策略,设计无人机对抗毁伤模型,建立了集群对抗仿真环境并实现仿真。所建立的多智能体环境也能够为强化学习算法的检验和应用提供支持。(2)应用强化学习算法学习双无人机间追击策略。双无人机追击是基本的集群对抗战术场景,根据此场景建立了双无人机追击决策模型。通过对追击者设置奖励和惩罚,分别应用基于价值迭代的强化学习算法和基于策略梯度的强化学习算法,使追击者在训练过程中学习到实现期望目标的策略。(3)多个无人机跟踪某无人机以及在数量优势下实现对某无人机目标的追击,是集群对抗中的一个常见战术场景。针对场景中无人机的策略学习问题,分析强化学习算法的设计思路,并实现用基于行动者-评论家框架的多智能体强化学习算法使多个无人机学习到有效的策略。(4)多个无人机追击多个目标是集群对抗的另一个常见战术场景,分析了该场景中单个无人机状态动作值函数难以估计的原因。为解决状态动作值函数估计难题,采用优势值函数区分不同无人机动作对集体奖励的贡献度,并在动作值函数加入注意力机制,促使单个个体动态注意其他个体状态和动作信息而不是时刻关注所有个体的信息。在构建的多无人机追击环境中,验证了改进后的多智能体强化学习算法的有效性,并检验了智能体数目增加时算法的适应性。
其他文献
内蒙古黄河流域有着丰富的黄土层资源,自古以来就是人们在建造过程中就地取材的天然建筑材料,生土建筑作为黄河文化的物质遗存,直观表现了该地域的多元历史文化和人民的建造智慧。通过对内蒙古黄河流域的呼和浩特市、包头市、鄂尔多斯市、巴彦淖尔市等地区传统建造历史资料的收集、整理,发现几千年来这个地区有着丰富类型的生土建筑资源,从最原始的穴居到房址、长城、城墙、粮仓、祭坛、墓葬、寺庙、民居等多种生土建筑类型。按
学位
钙钛矿陶瓷材料因其特殊的结构和物理性能已适用于许多领域,特别是在计算机和电子技术、医学诊断、工业智能化等应用方面。在钙钛矿陶瓷中,氧化物钙钛矿陶瓷是电子器件的基石材料,但其在弯曲下容易断裂,这种机械脆性限制了其在新兴柔性电子器件中的应用。作为最重要的纳米晶体材料之一的一维钙钛矿纳米材料,如锂镧锆氧(LLZO)和锂镧钛氧(LLTO)等纳米纤维具有高比表面积、优良的耐热性、生物相容性和化学耐久性等特点
学位
双氯芬酸(DCF)是一种新兴污染物,极易在地表水、污水处理厂、污水处理厂底泥、土壤甚至生物群中检出。它是引起药物特异质性肝损伤的典型药物之一,长期大量的接触会导致急性肝衰竭甚至死亡。由于DCF是生物活性物质,当它进入环境时,其生物活动可能对非目标生物产生不利影响。DCF不易自然降解,而传统污水处理厂对其之去除率仅为21-40%,存在极大潜在生态危害。相比于传统氧化剂,过硫酸盐活化技术在目前水处理领
学位
癌症患者高死亡率的主要原因是肿瘤细胞具有转移和侵袭性。而传统的全身化疗由于药物缺乏特异性和突释行为产生了较强的副作用。因此,构建合适的药物载体对原位肿瘤细胞进行靶向锚固以阻止其发生转移和侵袭,并局部给药以高效杀死癌细胞是提高肿瘤治愈率的关键所在。具有较高药物负载能力的多孔微球经合适表面修饰后可实现长期药物控释和靶向治疗目的,同时其微米尺度为锚固捕获肿瘤细胞提供了可能。通过电喷雾含有均质化得到的静电
学位
加快政府部门法治建设是全面依法治国的重要组成部分,税务机关作为主要执法部门之一,持续助力实现依法行政,促进税收健康发展。中共中央、国务院办公厅印发的《关于进一步深化税收征管改革的意见》明确提出,要推进一系列自上而下、由局部到整体、由零星至系统的税收征管体制改革。在此种环境下,基层税务机关的税收执法工作将面临着巨大的风险和挑战,坚持依法办税,保障精确执行有力量,优化服务有温度,通过不断优化税务征管体
学位
硫由于储量丰富、无毒无害、高理论比容量(1675 mAh·g-1)和高能量密度(2500 Wh·kg-1)等优点,在二次电池电极材料中具有巨大的发展潜力。然而,仍有诸多问题限制了硫的实际应用:1、硫单质本身是绝缘体;2、在充放电过程中,硫会发生密度变化引起体积膨胀和活性物质脱落;3、多硫化锂易溶于电解液而引发“穿梭效应”;4、硫为粉末状,在制作电极时需要额外的导电剂和粘结剂。针对以上问题,本文使用
学位
在教育科研国际化的背景下,在国际顶级期刊发表高水平学术论文已成为科研人员推动科学前沿发展、参与科学知识建构的重要途径,也是评价大学或科研机构科研实力与国际声誉的重要指标。提高中国学者的英语研究论文写作水平已成为各高校的重要目标。然而,大多数中国学者撰写和发表英文研究论文的能力还比较低,这主要体现在他们在用英语表达复杂的观点时,无法澄清自己的观点和说服读者。近年来,有越来越多的证据表明,单纯的语言基
学位
谐波减速器的性能状态直接决定了高精机械臂的稳定性和可靠性,进而影响产品的精度和品质。为保证设备持续高效运作,了解谐波减速器的健康状态至关重要。由于谐波减速器置于机械臂关节内,安装精度要求高,不便定期停机拆卸检查,对部件损伤状态的感知具有滞后性。因此,需要寻找一种能够克服传统方法探伤困难、灵敏度低、整体性差的缺点的检测方式。声发射检测是不受缺陷的形状、材料和位置限制,对结构内的微小损伤和动态损伤十分
学位
随着CPU的算力以及硬件性能的高速发展,车辆中连接的电子控制单元设备及其网络带宽需求也与日俱增。在选择车载总线的过程中,由于子控制系统硬件接口的差异,导致硬件厂商会采用多种类型总线混合使用的方案,提高了制造成本,降低了子系统的互换性,不利于系统的故障维护等。针对上述相关问题,开展对SAE-J1939、CANopen等标准协议栈的研究。以国产SOC芯片为基础,依据SAE-J1939及CANopen等
学位
在华南地区,极端持续性强降水是致洪暴雨的主要成因,与短时强降水相比,具有更长的持续时间,也更容易造成洪涝等自然灾害,然而目前针对极端持续性强降水的特征和形成机制还缺乏深入的研究。论文利用2008-2019年4-9月华南地区的逐时融合降水网格数据,对极端持续性强降水进行定义,同时分析了极端持续性强降水的发展演变过程、时空分布特征和典型天气形势,探究了边界层非地转风辐合对极端持续性强降水的影响,最后对
学位