基于多智能体强化学习的兵棋推演决策方法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:jizhe621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
兵棋推演是一种对实际战争进行仿真、模拟的方法,是研究作战行动的重要工具,也是未来战争的关键环节。在兵棋推演过程中利用规则进行决策的方式缺乏对不同地图以及不同对手的适应能力,若利用强化学习方法可以更好地进行推演过程中的自主学习和智能决策,但是现阶段多智能体领域存在的问题限制了该类方法在兵棋推演中的应用。本文以强化学习方法为基础,针对多智能体领域的置信分配以及稀疏奖励两个问题,分别引入值分解方法与分层决策方法,本文主要做了以下两个方面的工作:多智能体策略梯度方法虽然取得了巨大的成功,但因为其在集中式训练的框架下通常使用总体态势进行评估,所以置信分配问题没有得到有效解决。同时,多智能体环境的动态性和神经网络的高维输入也对集中式评估网络的可靠性带来了挑战。为了解决上述问题,本文考虑对集中评估方式进行分解,即将值分解的思想运用于多智能体Actor-Critic算法中,并将以往的状态价值评估改为动作价值评估,提出了一种基于动作价值分解的多智能体方法。该方法首先在本地层网络中对每个智能体的局部态势进行评估获得局部价值,然后在混合层中将它们融合为总体价值来进行网络的学习,混合过程中使用一个两阶段的注意力机制来衡量每个智能体对总体价值的贡献,这种方法能够更好地估算总体价值并衡量局部影响。基于相同的值分解框架,本文还提出了另一种基于状态价值分解的多智能体方法,该方法同样致力于缓解置信分配问题。为了验证以上算法的有效性,本文在星际争霸II的微观环境中进行实验,实验结果表明以上方法优于其他强化学习算法。多智能体环境中往往存在着稀疏奖励问题,因为智能体只有在做出复杂动作时才能获得奖励,且部分环境难以提供正向奖励。同时,在兵棋推演平台上如何针对其原始态势及动作接口进行实际性建模也是强化学习算法设计的难点。为了解决上述问题,本文提出一种分层决策的多智能体强化学习方法,该方法使用基于半马尔科夫过程决策的管理层网络来制定目标,并通过该目标引导执行层中所有的智能体进行学习。本文使用超网络的方式将管理层目标的信息合理地嵌入至执行层网络的评估过程中,以加强管理层与执行层之间的通信。本文针对兵棋推演平台落实了状态空间、双层动作空间与奖励函数的设计。同时为了加强算法的通用性,本文使用异常检测以及聚类算法提出一种免模型学习的分层决策方法,该方法能够实现目标的自动获取。本文在“庙算”陆战平台及Gridworld平台上进行实验,实验结果验证了本方法能够有效地进行复杂决策,且通用性较强。
其他文献
碳排放是导致全球变暖的主要原因,各个国家一直注重于碳减排工作以解决全球变暖的气候变化问题,碳排放权交易市场是减少碳排放和应对全球气候变化的重要途径。作为最大的碳排放国家之一,我国非常重视全球气候变化问题。自2013年以来陆续启动了碳排放权交易试点市场,并于2021年7月启动了全国统一碳排放权交易市场,旨在利用市场机制进行节能减排,实现绿色低碳发展,为解决全球气候变化问题作出贡献。本文通过以我国启动
学位
人脸图像是反映人的外貌和身份信息的重要载体之一,在社会生活的各个方面都有应用。受人脸成像过程中的各种外界因素影响,图像退化为低清的降质图像。本文以降质的人脸图像作为研究对象,在大尺度人脸超分辨率和小尺度人脸盲超分辨两个问题上,以深度生成先验和图像鉴别性先验为切入点,在无监督学习的理论框架下探讨人脸图像的超分辨率算法。主要工作如下:1.在大尺度的人脸图像超分辨率问题上,m GAN应用GAN Inve
学位
分类算法是数据挖掘中极其重要且基础的部分,传统的分类方法往往注重数据整体的分类准确率,应用于不平衡数据时,通常是以牺牲少数类的分类精度为代价来提升整体的分类准确率。在很多实际应用中,少数类样本在不平衡数据集中的作用至关重要,因此不平衡数据分类算法研究受到专家学者的广泛关注。论文首先对不平衡数据的二分类问题提出一种初始样本选择策略,以重点关注少数类,减少后续迭代开销,并且将该策略推广至线性不可分数据
学位
开关磁阻电机(SRM)结构简单、耐高温、高速适应性强,在航空航天、军事和民用领域具有独特应用特色。电磁轴承磁通可调节、固有刚度大、承载能力大、且控制灵活,在高速电机应用范围广。电磁轴承与SRM构成的磁悬浮开关磁阻电机(MBSRM),不仅可有效解决高速电机的轴承支撑问题,还可进一步发挥SRM的高速优势。然而,传统的MBSRM系统中,磁轴承和电机通常是单独设计和独立控制,系统庞大,集成度低;另外,电磁
学位
近年来自然灾害频发、公众突发紧急状况频出,各国纷纷开发结合自身国情的应急通信系统与之应对。作为一种暂时性的、应对各类突发情况而提供的特殊通信机制,应急通信系统的研究愈发受到各国重视。本课题设计实现基于卫星通信的多通道应急网络平台,为重特大突发环境事件状况提供可靠的通信模式,系统依靠多种通信模式之间的支撑、互补、互备,支持从小带宽到大带宽通信的切换,构建多网络覆盖、多模式切换的立体环境应急通信网络,
学位
宇宙中存在一些稀有星体,这些星体数量稀少但有重要研究价值。在海量天文观测数据中,智能高效地识别稀有星体能更好地辅助天文学家研究宇宙。由于稀有星体数据较少,可识别的特征不多,传统稀有星体识别方法需要人工选择特征,无法实现智能化识别。本文面向稀有星体的数据增强与识别模型进行研究,具体分为以下三个方面:首先,本文对光谱数据与图像数据进行预处理,并提出了一种基于局部连接卷积与生成对抗网络的稀有星体光谱数据
学位
为解决高速移动场景下载波间干扰和符号间干扰对通信系统所带来的问题,Hadani等人提出了正交时频空(Orthogonal Time Frequency Space,OTFS)调制方案,相比于承载在时频域的正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM),承载在时延多普勒(Delay Doppler,DD)域的OTFS具有抵抗时间色散和频
学位
随着密码技术和信息技术的发展,目前的密码算法本身已足够强大,能够对抗传统的密码分析手段,但由于设备本身的工艺特性,其运行时会泄露如功耗、电磁、时间等信息,这些信息能够被攻击者利用从而破解密钥,该方法称为侧信道分析SCA(Side Channel Analysis)。由于侧信道的出现,对加密算法产生了很大破坏性,攻击者利用该方法可以轻松的破解密码芯片的密钥。许多应用加密算法的芯片都容易受到该攻击,其
学位
材料研究的进程不断加快,对材料性能的需求也不仅仅满足于常规条件下。极端条件如高温、强压下材料的性能研究正在成为热点。本文的研究基于密度泛函理论(DFT)的第一性原理,使用计算机软件进行理论模拟计算。分别对间氨基苯甲酸晶体、4-硝基苯乙酸晶体和1,2-双(甲氨基)苯(以下简称2-Bis晶体)进行高压下理论模拟计算,分析三种晶体在高压下晶体结构、电子性质和光学性质的变化,主要研究内容如下:通过分析不同
学位
大规模多输入多输出(Multiple-Input Multiple-Output,MIMO)系统使用的是传统的蜂窝式网络,蜂窝式网络的小区边界会受到干扰,这一直限制着大规模MIMO的性能。去蜂窝大规模MIMO结合了大规模MIMO与分布式天线的特点,在广域上分布大量的接入点(Access Point,AP),并通过时分双工的操作为同一时频资源中的所有用户服务。去蜂窝大规模MIMO引入了“以用户为中心
学位