论文部分内容阅读
随着智能化程度的提升与人工智能技术的快速发展,多智能体系统已经在民用、军事等领域有了广泛的应用。相比单智能体系统,多智能体系统通过协同合作的方式,能够以更高的效率完成任务,同时具有更好的适应能力、容错能力。编队技术是多智能体系统完成任务的一项核心能力,传统的编队控制方法对环境、智能体模型和计算资源较为依赖,扩展性较差,且难以适应一些与避障、导航任务相结合的复杂应用场景。本文基于深度强化学习算法,实现了在多影响因素、多目标的复杂环境下自主避障、协同合作的多智能体编队。全文的主要研究工作与创新点如下:
(1)避障是实现复杂环境下多智能体编队的重要基础,本文设计了一种基于深度确定性策略梯度算法(DDPG)的智能体避障方法。搭建了适用于强化学习方法的部分可观测马尔科夫环境;通过对实验场景、回报函数进行合理设计,对单智能体和多智能体避障问题进行了建模;以独立强化学习的思路,使用 DDPG算法对智能体进行训练。实验结果表明该方法能够实现智能体的自主避障,避障成功率较高,说明了强化学习对此类问题的有效性。
(2)针对不同应用场景下的多智能体编队问题,本文设计了一种基于多智能体深度确定性策略梯度算法(MADDPG)的编队方法。基于仿真环境,设计了多个编队实验场景及对应的回报函数;考虑到DDPG算法难以满足编队场景中协同合作的要求,借鉴了多智能体强化学习的思路,采用了集中训练、分散执行的算法框架。该方法训练得到的智能体能够完成多边形编队、编队导航和切换队形编队等多种复杂任务,效果优于独立强化学习算法 DDPG,在测试过程中展现出了更好的协同合作能力,体现了多智能体深度强化学习算法在编队问题上的优越性。
(3)强化学习可以通过与环境之间的不断交互,让智能体学习到较好的编队与避障策略,但仍然存在训练不稳定和耗时等缺点。针对这些不足,本文提出一种异步多智能体深度确定性策略梯度算法(AMADDPG)。考虑到强化学习算法收敛缓慢、困难,以并行计算的方式搭建异步训练的框架,提升了网络的收敛性能;考虑到经验回放不充分的问题,采用带优先级的交互数据采样方法,包括使用带优先级的经验回放缓存和带优先级的批处理数据,提升了网络参数更新的效率。在多智能体编队场景下的对比实验证实,AMADDPG算法成功提升了网络收敛速度和训练效果。
(1)避障是实现复杂环境下多智能体编队的重要基础,本文设计了一种基于深度确定性策略梯度算法(DDPG)的智能体避障方法。搭建了适用于强化学习方法的部分可观测马尔科夫环境;通过对实验场景、回报函数进行合理设计,对单智能体和多智能体避障问题进行了建模;以独立强化学习的思路,使用 DDPG算法对智能体进行训练。实验结果表明该方法能够实现智能体的自主避障,避障成功率较高,说明了强化学习对此类问题的有效性。
(2)针对不同应用场景下的多智能体编队问题,本文设计了一种基于多智能体深度确定性策略梯度算法(MADDPG)的编队方法。基于仿真环境,设计了多个编队实验场景及对应的回报函数;考虑到DDPG算法难以满足编队场景中协同合作的要求,借鉴了多智能体强化学习的思路,采用了集中训练、分散执行的算法框架。该方法训练得到的智能体能够完成多边形编队、编队导航和切换队形编队等多种复杂任务,效果优于独立强化学习算法 DDPG,在测试过程中展现出了更好的协同合作能力,体现了多智能体深度强化学习算法在编队问题上的优越性。
(3)强化学习可以通过与环境之间的不断交互,让智能体学习到较好的编队与避障策略,但仍然存在训练不稳定和耗时等缺点。针对这些不足,本文提出一种异步多智能体深度确定性策略梯度算法(AMADDPG)。考虑到强化学习算法收敛缓慢、困难,以并行计算的方式搭建异步训练的框架,提升了网络的收敛性能;考虑到经验回放不充分的问题,采用带优先级的交互数据采样方法,包括使用带优先级的经验回放缓存和带优先级的批处理数据,提升了网络参数更新的效率。在多智能体编队场景下的对比实验证实,AMADDPG算法成功提升了网络收敛速度和训练效果。