一种基于深度强化学习的指挥决策方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:mnbvcxzxzh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习是当前人工智能研究领域新的热门方向,它将深度学习的感知能力与强化学习的决策能力相结合,以端对端的形式实现了从原始输入到输出的直接控制。提出至今,已经在众多决策控制和需要对高维原始输入数据感知的任务中得到应用,尤其是在指挥决策领域,获得了实质性的突破,然而当前的深度强化学习算法在指挥决策的过程中仍然存在数据利用率低、学习出的策略不稳定以及在欺骗性或稀疏环境中陷入局部最优、长期无法获得奖赏等问题。本文针对以上问题,提出了SOBTPER-DDGBES DQN深度强化学习算法。在经验回放方法方面,本文针对现有方法导致算法数据利用率、学习出的策略质量低等问题提出了“基于二阶优先级反向传播的经验回放方法”,通过样本序列的累计奖赏值、样本数据的TD-error值和所在样本序列的优先级构建第一、二级优先级,同时每一个样本数据的优先级向前反向衰减传播。该方法从样本序列累计奖赏和优先级反向衰减传播两个角度,在获得高质量策略的同时,也提升了数据利用率。在探索利用策略方面,本文针对现有策略导致算法收敛速度慢、稳定性差等问题提出了“基于多样性驱动和贪婪波尔茲曼的探索利用方法”,通过在损失函数上引入相对熵,该方法可以显著地增强智能体Agent对环境的搜索能力。其次,根据智能体Agent获得的奖赏情况使用ε自适应策略,使ε的值可以随着智能体Agent学习的过程动态调整,解决了探索与利用的平衡问题。然后在ε自适应策略的基础上,针对等概率选取动作影响算法速率及效率的问题,引入了波尔茲曼策略。最后基于DQN算法,提出了SOBTPER-DDGBES DQN深度强化学习算法。通过对比实验表明,本文提出的SOBTPER经验回放方法在指挥决策过程中,相对于以往的方法在获取高质量策略、数据利用率上有了明显提升。在探索利用方法方面,相对于以往的的探索利用策略,验证了DDGBES探索利用方法在指挥决策活动中平衡探索与利用的优势。最后与现有的深度强化学习算法进行对比实验,验证了SOBTPER-DDGBES DQN算法在指挥决策活动中具有优异的综合性能,可以极大的提升策略的质量和速度,使指挥决策活动更加科学和合理。
其他文献
随着社会的发展和科技的进步,数字音频已经成为人们日常生活主流的信息载体。由于Cool Edit、Cakewalk以及Audition CS6等音频处理软件的广泛应用,人们肆意伪造或者篡改数字音频的行为也日渐增多。随着数字音频面临日益严重的信任危机,近年来国内外涌现出很多数字音频取证技术的研究。数字音频取证技术是通过解决数字音频的真实性、完整性以及原始性等安全问题,以达到保障数字音频安全性的目的。截
现阶段5G技术的发展日新月异,5G商用未来可期,面对当下5G三大业务场景的广大需求,中国移动创新提出SPN(Slicing Packet Network,切片分组网)网络架构应对5G全新应用场景需求,各个通信设备制造商遵循移动提出的SPN技术标准,致力于研发SPN设备,满足移动SPN设备测试规范的要求。SPN采用分层网络模型,分为切片分组层(Slicing Packet Layer,SPL)、切分
三维石墨烯虽然具有快速的充电速率、长的循环寿命、丰富的孔径结构和高的电导率等优异性质,但由于其比电容较低,较大程度的制约了其在超级电容器中的应用。将聚苯胺(PANI)与三维石墨烯复合可以提高其比电容,但由于聚苯胺与石墨烯的界面接合较弱,这会影响该类复合电极材料的电化学性能。针对这一问题,本文提出采用功能化修饰方法,用氨基(-NH2)、磺酸基(-SO3H)对三维石墨烯进行表面功能化修饰,调控聚苯胺与
近年来,随着智能手机与平板电脑等移动设备的普及,运行在移动设备上的应用程序(app)的数量也急剧增加。目前,移动设备上的移动应用程序市场内已经拥有数百万的移动应用。如此规模的移动应用的维护对于开发人员来说是一个巨大的挑战。开发人员通常需要通过软件维护方法来保证移动应用程序的质量,从而提高用户的满意度。他们通常会提交问题报告来描述在使用应用程序的过程中出现的缺陷,功能请求和其他更改。标签(例如,缺陷
随着旋转机械大量应用于电力、石化冶金以及航空航天等工业领域,其设备安全问题由于关乎人民群众的生命财产安全,逐渐成为国内外学者关注的焦点,其中由于转子不平衡以及不平衡引发的其他故障最为常见,约占总故障的70%。现如今随着工业4.0智能化工业的高速发展,基于大量工业数据的故障诊断技术层出不穷,以数据驱动的智能故障诊断方法以其高效快速的特点逐渐成为一颗冉冉升起的新星。本文以转子不平衡故障为研究对象,采用
随着存储数据的剧增,系统中的数据失效情况频发。现有的容错手段主要包括副本冗余和纠删码两种,纠删码因其具有相较副本存储开销小的优点成为存储系统中重要的容错策略,数据重构是纠删码解决问题的重点,其针对重构技术的研究主要从编码方案和重构过程两个方面展开。纠删码中的分组码通过将数据块分组降低数据重构时读取数据量,编码结构简单,但现有分组码各分组之间由于关联性差会导致容错率降低等问题,且目前关于分组码在重构
机器人自主定位和导航是机器人领域的一个重要研究方向。机器人定位方式又可分为局部定位(如基于马尔科夫链的SLAM(Simultaneous Localization And Mapping)里程计的相对位置的确定)和全局定位(如有额外的地图辅助的绝对位置确定)。局部定位方式因其定位原理会造成定位误差累积;而地图包含环境中目标的精确位置信息,能够提供可靠的绝对位置。地图现有形式中,栅格地图、拓扑地图等
钇稳定氧化锆(Yttria stabilized zirconia,YSZ)基固体电解质传感器因具备抗水蒸气干扰能力强、选择性好、响应快、结构简单、寿命长等优点,近年来成为挥发性有机物(Volatile Organic Compounds,VOCs)气体检测方面的研究热点。但是从国内外的研究中可以发现,基于氧化锆电化学气体传感器对甲醛气体的灵敏度较低,距实现室内痕量甲醛气体的有效检测还存在一定的距
互联网的迅猛发展,促进了互联网广告业的发展,网络广告占据了整个网络,如今大多数网站都或多或少包含某种广告。广告虽然可以为网站或企业带来收益,但是也给网络用户获取有用信息造成了干扰,因此,研究如何识别网络中的广告具有十分重要的意义。对于目前广告商使用较多的图片广告和文本广告,已有的图片广告识别大多通过规则匹配来完成,需要经常更新规则,实时检测的效率还需提高,基于多维特征的识别方法,特征提取较为复杂;
智能汽车作为缓解当前交通压力的重要方式,凭借事故率低,能源消耗少,驾驶舒适性高等优点,逐渐成为高校与企业的研究热点。随着智能汽车研发推进,其应用场景日益复杂,安全舒适性需求不断增加,且受限于早期车载传感器种类单一,模型参数化方案缺少模仿人类驾驶潜力,早期智能驾驶研发主要追求辅助驾驶功能实现,缺乏模仿人类驾驶的项目研究,故为完善“人-车-路”协调统一的智能交通系统,仍需不断引入新的技术手段。近期量产