论文部分内容阅读
多Agent协作追捕问题研究的是由多个Agent组成能相互协作的团队,去追捕另外一个或一群移动的Agent。多Agent协作问题是多Agent系统的研究热点,而多Agent协作追捕问题是多Agent协作研究中的一个典型问题,这些典型问题的研究成果中所涉及的关键技术已被广泛应用于军事,工业等,如战场搜救,捕俘动作,代理合作,军队包围并抓获入侵者,空战等领域。
多Agent协作追捕问题中,逃跑者与追捕者在具有学习能力的情况下,逃跑者和追捕者的行为选择都会受到另一方行为策略选择的影响,与此同时追捕团队成员也将影响到其他成员的选择,这之间的相互影响的决策,博弈论为其提供了很好的数学工具,强化学习为参与任务的Agent在保持团队协作、预测逃跑者的行为策略及更新自己的行为策略等方面提供了很好学习模型。本文提出基于博弈论以及强化学习的方法对多Agent协作追捕问题进行了研究,具体如下:
(1)首先,对国内外一些研究者关于多Agent协作追捕问题所提出方法进行综述。介绍多Agent协作问题的解决方法,以及其典型问题多Agent协作追捕问题的研究现状以及多Agent追捕问题的目的和意义,对已有的研究成果进行了分析,并指出了存在的不足之处;其次介绍了多Agent系统和多Agent协作的基本理论,以及博弈论和强化学习的相关知识。
(2)研究了有障碍的可感知环境下单逃跑者追捕问题。针对具有学习能力的逃跑者,提出了一种基于博弈论和Q学习的多Agent协作追捕算法,并用虚拟行动的方法解决多个均衡的选择的问题,有效的保证了任务的顺利完成,仿真实验验证了本文所提出的算法在有障碍且可感知环境下,多Agent追捕团队对于单逃跑者的追捕在不同环境下的适应性以及稳定性。
(3)研究了在具有障碍物的条件下多逃跑者追捕问题。针对具有学习能力的多个逃跑者,且逃跑者之间又能够相互协作产生拘捕行为的问题,提出了一种多Agent协作追捕多目标的方法。该方法基于预测—规划—执行的多Agent追捕算法思想,将多Agent的围捕问题分解为动态多Agent运动状态预测和动态多Agent目标轨迹学习;逃跑Agent之间的团队协作与虚拟Agent决策;追捕团队与目标逃跑者的博弈求解三个子问题进行研究。算法在仿真平台中进行验证,结果显示本文提出的算法收敛性快,可行性高。
(4)设计和开发基于微软VisualStudio2013社区开发平台,实现了多Agent协作追捕模拟仿真平台,在平台中内置了的博弈算法和强化学习算法,以及本文所提出的算法,可供用户选择,同时在平台中为用户提供可视化操作界面,方便用户选择可视化地形以及Agent的数量,在该平台中进行关于多Agent协作追捕问题的仿真实验,验证本文所提出算法的可行性。
(5)最后对论文的主要工作进行总结,并阐述下一步的工作。
多Agent协作追捕问题中,逃跑者与追捕者在具有学习能力的情况下,逃跑者和追捕者的行为选择都会受到另一方行为策略选择的影响,与此同时追捕团队成员也将影响到其他成员的选择,这之间的相互影响的决策,博弈论为其提供了很好的数学工具,强化学习为参与任务的Agent在保持团队协作、预测逃跑者的行为策略及更新自己的行为策略等方面提供了很好学习模型。本文提出基于博弈论以及强化学习的方法对多Agent协作追捕问题进行了研究,具体如下:
(1)首先,对国内外一些研究者关于多Agent协作追捕问题所提出方法进行综述。介绍多Agent协作问题的解决方法,以及其典型问题多Agent协作追捕问题的研究现状以及多Agent追捕问题的目的和意义,对已有的研究成果进行了分析,并指出了存在的不足之处;其次介绍了多Agent系统和多Agent协作的基本理论,以及博弈论和强化学习的相关知识。
(2)研究了有障碍的可感知环境下单逃跑者追捕问题。针对具有学习能力的逃跑者,提出了一种基于博弈论和Q学习的多Agent协作追捕算法,并用虚拟行动的方法解决多个均衡的选择的问题,有效的保证了任务的顺利完成,仿真实验验证了本文所提出的算法在有障碍且可感知环境下,多Agent追捕团队对于单逃跑者的追捕在不同环境下的适应性以及稳定性。
(3)研究了在具有障碍物的条件下多逃跑者追捕问题。针对具有学习能力的多个逃跑者,且逃跑者之间又能够相互协作产生拘捕行为的问题,提出了一种多Agent协作追捕多目标的方法。该方法基于预测—规划—执行的多Agent追捕算法思想,将多Agent的围捕问题分解为动态多Agent运动状态预测和动态多Agent目标轨迹学习;逃跑Agent之间的团队协作与虚拟Agent决策;追捕团队与目标逃跑者的博弈求解三个子问题进行研究。算法在仿真平台中进行验证,结果显示本文提出的算法收敛性快,可行性高。
(4)设计和开发基于微软VisualStudio2013社区开发平台,实现了多Agent协作追捕模拟仿真平台,在平台中内置了的博弈算法和强化学习算法,以及本文所提出的算法,可供用户选择,同时在平台中为用户提供可视化操作界面,方便用户选择可视化地形以及Agent的数量,在该平台中进行关于多Agent协作追捕问题的仿真实验,验证本文所提出算法的可行性。
(5)最后对论文的主要工作进行总结,并阐述下一步的工作。