基于多组并行深度Q网络的连续空间追逃博弈算法

来源 :兵工学报 | 被引量 : 0次 | 上传用户:liuzufang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决连续空间追逃博弈(PEG)问题,提出一种基于多组并行深度Q网络(DQN)的连续空间PEG算法。应对连续行为空间中为避免传统强化学习存在的维数灾难不足,通过构建Takagi-Sugeno-Kang模糊推理模型来表征连续空间;为应对离散动作集自学习复杂且耗时不足,设计基于多组并行DQN的PEG算法。以4轮战车PEG问题为例设计仿真环境与运动模型,进行了运动计算,并与Q-learning算法、基于资格迹的强化学习算法、基于奖励的遗传算法结果相比对。仿真实验结果表明,连续空间PEG算法能够较好地解决连续空间
其他文献
Self-accelerating beams have the unusual ability to remain diffraction-free while undergo the transverse shift during the free-space propagation. We theoretical
为应用自动机械变速器(AMT)实现双侧独立电驱动履带车辆的换挡,降低换挡控制难度,设计非道路行驶时的换挡控制方法。基于无离合器、有同步器的两挡行星AMT,通过线控系统及纯
针对车用涡轮增压器离心压气机叶轮在变海拔环境下可能出现的静强度失效问题,开展了叶轮在变海拔环境下多场载荷及应力响应的变化规律研究。采用单向稳态流体与固体耦合的方
为研究多管火箭武器箱式复合材料定向器长期堆码贮存吸湿-蠕变耦合行为,在Schapery非线性模型中引入湿移位因子,推导考虑吸湿效应的三维正交各向异性非线性蠕变本构模型。制
针对固体发动机燃烧不稳定问题,提出一种基于旋转阀的固体推进剂压强耦合响应测试方法,并对应设计了一套可开展冷气和推进剂点火实验的旋转阀实验系统。通过23 Hz、46 Hz、69
高强化柴油机通过实现米勒循环可有效控制爆发压力,进气门晚关角的加大导致有效压缩比的进一步降低,带来启动困难的技术问题,采用可变气门相位技术可有效兼顾爆发压力与柴油
构建校园现代化数据治理体系是高职院校打造智慧校园、提升治理水平的重要保证.本文研究以当前高职院校数据治理面临的四个问题为导向,分析提出基于融合式数据中心的高职院校
自存在可考证的历史以来,人类就是一种群居动物,生活在各种类型的群体中。而教育在很大程度就是一种典型的群体行为。本文通过对于群体的研究,试图以群体智慧形成过程的理论为出
结构化表面在减小机械零件摩擦或表面拖曳阻力方面起到重要的作用。为获得一种结构化摩擦减阻表面的高效磨削法,基于砂轮的磨粒有序化排布设计理论,提出一种嵌齿式磨粒簇有序
在基于可见光图像的单个目标伪装效果评估中,当目标处于反差较大的两种背景交界区域附近时,直接采用8邻域背景选取方法,将会导致评估结果出现较大偏差。针对这一问题,提出一种基于颜色聚类的背景选取方法。通过该方法对8邻域图像进行颜色聚类后,将目标近邻区域中不包含的颜色类从8邻域图像中剔除,再减去目标区域后即为选择的背景。实验结果表明:采用4~6个颜色聚类中心时,可以有效去除无关的背景区域,增强单个目标伪装