基于深度强化学习的多智能体编队问题研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:candyshelly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能化程度的提升与人工智能技术的快速发展,多智能体系统已经在民用、军事等领域有了广泛的应用。相比单智能体系统,多智能体系统通过协同合作的方式,能够以更高的效率完成任务,同时具有更好的适应能力、容错能力。编队技术是多智能体系统完成任务的一项核心能力,传统的编队控制方法对环境、智能体模型和计算资源较为依赖,扩展性较差,且难以适应一些与避障、导航任务相结合的复杂应用场景。本文基于深度强化学习算法,实现了在多影响因素、多目标的复杂环境下自主避障、协同合作的多智能体编队。全文的主要研究工作与创新点如下:
  (1)避障是实现复杂环境下多智能体编队的重要基础,本文设计了一种基于深度确定性策略梯度算法(DDPG)的智能体避障方法。搭建了适用于强化学习方法的部分可观测马尔科夫环境;通过对实验场景、回报函数进行合理设计,对单智能体和多智能体避障问题进行了建模;以独立强化学习的思路,使用 DDPG算法对智能体进行训练。实验结果表明该方法能够实现智能体的自主避障,避障成功率较高,说明了强化学习对此类问题的有效性。
  (2)针对不同应用场景下的多智能体编队问题,本文设计了一种基于多智能体深度确定性策略梯度算法(MADDPG)的编队方法。基于仿真环境,设计了多个编队实验场景及对应的回报函数;考虑到DDPG算法难以满足编队场景中协同合作的要求,借鉴了多智能体强化学习的思路,采用了集中训练、分散执行的算法框架。该方法训练得到的智能体能够完成多边形编队、编队导航和切换队形编队等多种复杂任务,效果优于独立强化学习算法 DDPG,在测试过程中展现出了更好的协同合作能力,体现了多智能体深度强化学习算法在编队问题上的优越性。
  (3)强化学习可以通过与环境之间的不断交互,让智能体学习到较好的编队与避障策略,但仍然存在训练不稳定和耗时等缺点。针对这些不足,本文提出一种异步多智能体深度确定性策略梯度算法(AMADDPG)。考虑到强化学习算法收敛缓慢、困难,以并行计算的方式搭建异步训练的框架,提升了网络的收敛性能;考虑到经验回放不充分的问题,采用带优先级的交互数据采样方法,包括使用带优先级的经验回放缓存和带优先级的批处理数据,提升了网络参数更新的效率。在多智能体编队场景下的对比实验证实,AMADDPG算法成功提升了网络收敛速度和训练效果。
其他文献
水下机器人技术正受到越来越多的关注,在诸如堤坝检测、管道铺设、水下救援、鱼群探测、生态监测和考古调查等领域应用广泛,显现着越来越重要的作用。然而,当前水下机器人研究主要以面向深海应用的大型作业级机器人为主,随着该领域的不断发展,浅水应用环境下的低成本、高精度ROV(Remote Operated Vehicle,即遥控水下机器人)需求与日俱增,研发适用于浅水环境的观察级ROV及其配套仿真系统与水下
排爆机器人能够在危险环境下代替排爆人员对可疑的爆炸物进行检查、抓取、搬运和销毁,可作为搜爆、排爆作业的专业装备,是当前特种机器人研究的热点之一。本文针对多机器人的协同作业过程,重点研究远程操控、机械臂半自主抓取和多机器人协作等技术,设计并实现了基于排爆机器人的半自主多机协作系统。  本文在调研排爆机器人及其关键技术研究现状的基础上,针对现实排爆过程中出现的两个主要问题:(1)单台机器人操作不便或无
人脸识别技术为人民生活带来了众多便利,并且为社会安全做出了很大的贡献。在很多应用场景中人脸识别技术需要运行在嵌入式设备上,并且由于嵌入式平台的发展,更高性能的人脸识别算法可以在嵌入式平台上得以实现。因此本文对基于嵌入式平台的人脸识别技术进行了深入的研究,研究内容如下:  (1)人脸检测算法研究。为了实现嵌入式平台实时人脸检测,设计了一种基于级联架构的人脸检测算法。该检测算法核心为3层级联的卷积神经
学位
高分辨率图像在很多场景中都有广泛需求。但在现实图像获取过程中,成像环境和成像硬件设备的限制以及各种噪声干扰导致获取的图分辨率有限。人们常助图像超分辨率(Super-resolution, SR)技术提高获取图像的分辨率,得到重建的高分辨率图像。着深度学习的出现,基于深度学习的图像超分辨率方法成为国内外研究的热点。图像超分辨率重建技术是指用信号处理和图像处理的方法,通过软件算法的方式从已有的低分辨率
学位
人机共融导航是服务机器人研究领域的核心技术之一。行人建模和路径规划的结合是服务机器人人机共融导航目前发展的重要趋势。本文针对室内服务机器人的工作环境,设计具有良好扩展性与稳定性的服务机器人人机共融导航系统框架,对涉及的相关技术展开深入研究,并对系统各模块进行软件设计与实现。  论文综述了服务机器人人机共融导航相关技术的研究现状,分析系统设计与实现存在的技术难点,在此基础上进行了需求分析,基于机器人
人脸遮挡判别技术是计算机视觉领域中一项重要的技术,具有广泛的应用前景。三维人脸识别技术突破了二维人脸识别技术的瓶颈,对光照、姿态等外部干扰具有较高的鲁棒性,成为国内外的研究热点。与基于曲线、模型和多模态等方法的三维人脸遮挡判别算法不同,仅基于三维点云突变边缘、法向量、形状结构等原始特征的三维人脸遮挡判别算法能够实现更高效的遮挡判别。本文在对三维人脸遮挡深入分析的基础上,针对基于特征的三维人脸遮挡判
学位
近年来随着汽车产量的不断增加,汽车轮毂行业不断发展壮大,将自动化生产技术引入生产线的需求也在不断提升。汽车轮毂的种类日益繁多,多达上百种,并且不断有新轮型面世。传统的通过人工分类识别汽车轮毂类型的方法准确率不高,且长期观测容易引起疲劳,对人眼有损伤,已经无法满足工厂的生产需求。本论文采用计算机视觉相关技术,实现了轮毂分类和钢套检测算法,并开发了一套轮毂生产管理系统。主要研究工作如下:  (1)从轮
学位
随着硬件技术的发展、通信能力的提高以及人工智能研究的深入,视频监控技术在实际应用中弥补了人眼观测无法 24 小时持续工作、易疲劳等诸多缺点,在国土安全、犯罪预防、交通控制、事故预测和检测等方面均有广泛应用。尤其在中大型安防系统中,视频监控常常需要覆盖多个节点,汇总多个节点信息进行处理控制,对准确性和实时性有较高要求。因此,设计一个硬件、算法、软件相互配合的稳定实时系统具有较大挑战性和实际应用价值。
在复杂的大尺度室内作业环境下,一次性探索并通过视觉SLAM方法建立环境地图往往存在效率低、误差大等问题。本文针对结构复杂的大尺度室内作业环境,研究了基于子地图的多阶段视觉建图与定位导航方法,设计了一套通用的视觉建图与定位模块,并在其基础上面向两种不同的应用场景开发了相应的功能软件。  针对复杂室内作业环境尺度大、结构复杂的特点,提出了基于子地图的多阶段视觉SLAM方法,在ORB-SLAM2算法的基
学位
随着体域网技术和通信技术的发展,各类可穿戴生理传感器开始得到广泛应用,能采集的人体生理信号也更加丰富。在战场环境下已不满足于对士兵基本生命体征的监测,而是期望能进一步感知士兵在体能、情绪等方面的体征状态。本文以战场环境下构建单兵体征智能检测系统为背景,研究了人体基本生命体征、饥饿、运动性疲劳和恐惧这几类体征的识别技术,通过选取具有普适性、易采集的多路生理信号,构建人体体征识别模型,以达到对人体体征