多智能体强化学习与规划一体化方法——面向通信拒止环境下围捕问题的分析与验证

来源 :军事科学院 | 被引量 : 0次 | 上传用户:feicheng11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体问题是一类在军事、经济和物理世界中广泛存在的挑战性问题,其核心是如何获取智能体之间合作或非合作模式下的整体最优策略,其求解难度随着智能体数量和博弈强度而指数上升,因此面临着算法可支持的智能体数量少和难收敛等难题。与此同时,其作为典型的决策问题,强化学习和规划方法是多智能体问题主流的解决手段。强化学习(Reinforcement Learnning)通过与环境不断交互获取数据并进行学习,在以Alpha Go为代表的应用中取得了显著效果,但其仍面临数据效率过低的问题。规划方法(Planning)以环境模型为基础,无需使用大量样本进行学习,但其面临着环境模型难以精确获得的问题。针对多智能体合作问题,提出了强化学习和规划一体化方法,一方面通过规划引导强化学习以提高其数据采样效率;另一方面通过强化学习提升基于规则混合的规划能力。最后,面向基于通信拒止环境下的多智能体合作围捕场景,开展了相关实验验证,取得了良好实验效果。主要贡献如下:(1)针对通信拒止环境下的多智能体合作问题,提出基于规划引导的多评价器单行动器强化学习方法,设计多评价器单执行器Actor_1-Critic_N结构,基于此结构提出了人工势场引导的深度确定性策略梯度算法PGDDPG。该算法可以使用多个评价器来引导智能体策略的更新,设计的基于人工势场的评价器可以在多智能体之间进行复用。统一的人工势场能够在多智能体之间建立联系,促使智能体之间默契的合作。在MPE环境进行了实验,PGDDPG比DDPG和MADDPG方法围捕成功率更高,收敛速度更快。(2)针对多智能体问题中智能体数量可扩展性问题,提出基于强化学习增强的单评价器多行动器规则混合方法,设计多执行器单评价器Actor_N-Critic_1结构,基于此结构实现了知识引导的强化学习算法KG-RL。该算法将一组简单的规划方法和人类知识抽象成决策模块和行动模块,通过强化学习的方式在模块之间学习出一个最佳逻辑结构。这种方法可以减少原始观察中的冗余信息,屏蔽了原始动作空间中的无效动作,同时避免了强化学习训练早期低效的随机探索。在Magent环境中进行了实验,KG-RL方法在胜率上比完全基于知识的决策树高22%,比纯强化学习MFRL高39%。(3)设计并实现了强化学习规划一体化框架的原型系统Actor_N-Critic_N,此系统将上述两种算法相统一,实现了一套代码在两个算法之间进行切换。在基于UE4引擎开发的通信拒止仿真海上围捕环境中进行了实验,验证了系统的有效性。
其他文献
随着各国对海洋资源的不断开发与利用,水下传感器网络(Underwater Sensor Networks,UWSNs)逐渐成为海洋工程领域的研究热点。而水下目标被动定位技术作为UWSNs的关键技术而备受重视。与陆地定位系统不同,由于水下环境的特殊性,电磁波信号较难覆盖水下空间,因此,对水下目标被动定位算法的选择提出了更高的要求。本文利用声信号获取观测参量,针对水下传感器网络不同定位场景下的定位原理
学位
除草剂CLP的大量生产及在农业生产中的广泛应用,严重地威胁生态水体系统。CLP具有广谱抑菌特性和抗生物降解性,进入污水处理工艺中会对主流脱氮工艺造成潜在影响,而CLP胁迫下反硝化脱氮性能与微生物响应机制是未知的。因此本课题通过批次实验和连续进水反应器分别探讨了CLP短期和长期胁迫下反硝化脱氮性能变化。结合分子生物学手段,解析了CLP对微生物细胞的毒性作用和代谢活性的影响及微生物群落结构与功能的演替
学位
作为社会最基本的组织单位,家庭在满足老人经济支持、生活照护、精神慰藉等养老需求中发挥着重要作用,是其他养老模式所无法替代的。然而,伴随着家庭结构趋向小型化、人口跨区域流动、思想观念转变等社会变迁,传统的家庭养老功能逐渐式微,并呈现加速弱化的趋势。因此,在厘清家庭养老功能变迁轨迹的基础上,可对我国家庭养老现实困境进行剖析,并提出有利于家庭养老功能重塑的对策建议,以期为缓解我国老龄化压力、促进家庭关系
期刊
随着大数据处理技术的发展,基于深度学习的目标检测方法广泛应用于视频监控、自动驾驶、医学图像分析、人脸识别、遥感图像分析等领域。由于传统相机在高速运动和极端光照场景下会产生运动模糊和过曝欠曝现象,导致目标检测算法失效,拥有高动态范围、高时间分辨率等特性的事件相机为复杂条件下的目标检测算法研究提供了新的方向。目前,基于事件相机的目标检测算法面临的重要挑战问题是,如何充分利用事件相机输出的事件序列的特有
学位
目前航天任务的发展逐渐多样化,以在轨服务技术为代表的空间任务不断增加。在航天器在轨服务的任务执行过程中,首先要在保证服务航天器和目标不发生碰撞的情况下对目标实施接近。由于航天器本身的易损性和目标可能存在的非合作性,对服务航天器接近过程中的控制技术提出了较高的要求。同时航天器的安全接近控制方法在其他空间操作任务中具有非常重要的意义。本文以空间目标在轨操作为研究背景,研究了对空间碎片等障碍物和失控的非
学位
在机械臂的设计与制造中,借助仿生思想是一种重要思路。肌肉是驱动人体关节活动的主要驱动器,作为一类生物软材料,肌肉对于软体机械臂的研发起着借鉴作用,而肌肉力学模型的建立对于探索生物肌肉作动机理的研究是十分重要的。近年来,随着仿生控制的机械臂尤其是人工肌肉驱动的智能机械臂的广泛使用,分析生物骨骼肌作动原理、建立力学模型将对机械臂的设计工作提供参考依据。本文以分析肌肉力学特性,建立体现肌肉时变作动力特性
学位
近年来,随着强化学习方法在各个领域所取得的显著成绩,如何优化强化学习方法的学习过程得到了越来越多的关注。由于强化学习的学习机制,智能体需要在学习过程中不断试错,利用收集到的样本积累经验,更新自身策略。在强化学习算法的应用中,由环境状态特征不明确、回报值稀疏、样本质量低、探索空间过大等所导致的学习效率低下问题成为强化学习所面临的一大挑战。人工势场法所提供的势函数可以形式化地表示当前观测状态中的态势分
学位
军事指标作为评价军事领域发展状况的重要标准,在评估军事发展现状和指导发展方向等方面具有重要作用。当前军事领域指标主要依靠专家通过对评价对象深入研究后提出,其构建过程给领域专家带来大量繁琐的工作并且效率不高,没有一个有力的辅助工具对专家构建军事指标提供支撑。因此,本文提出将历史积累的军事指标进行系统分类、有效组织,为构建新的军事指标体系提供参考,提升军事指标体系的构建效率,为领域专家提供有力辅助。本
学位
软件的脆弱性是软件自身存在的安全缺陷,因软件的错误行为引发的安全故障,软件的脆弱性检测就是找到并识别出软件的安全故障。随着现代软件规模的不断增加和程序复杂度的逐步演化,软件开源逐渐成为主流的开发趋势,目前开源软件的脆弱性定位方法仍以人工检测为主,程序开发人员通过检查软件源代码来定位漏洞所在的位置。然而单单依靠手动分析找出所有的代码缺陷与软件漏洞几乎是不可能实现的,并且基于人工的软件脆弱性检测方法因
学位
自动调制分类(AMC)是无线通信系统中参数估计、信号解调和频谱管理等技术的基础,在民用领域和军事领域都有重要的作用。随着通信技术的快速发展,现代通信中调制样式日趋多样化和复杂化,传统的调制识别技术已难以适应如今复杂的通信环境和繁杂的调制样式。相对于专家依赖性较高、适用范围较小的人工设计特征,深度学习方法可以从复杂的数据结构中学习通用特征,并获得较高的分类精度,因此,用深度学习方法进行自动调制分类是
学位