论文部分内容阅读
多机器人协调与协作问题是多机器人系统研究的热点之一。多机器人追捕问题是研究多智能体机器人系统中多机器人协调与协作问题的理想平台。它主要研究多个追捕者捕获运动的多个逃跑者的动态过程中通过相互间的协作与协调使追捕者间避免冲突,获利最大的最优协作追捕算法。同时它涵盖了实时视觉处理、无线通讯、实时动态路径规划、多机器人分布式协调与控制、多机器人规划与学习、机器人团队之间的竞争与合作等多学科、多领域知识。强化学习是学习如何把状态映射到动作,并且使得用数字表示的奖励信号最大的一种学习方法。将强化学习应用到多机器人追捕问题中,使追捕机器人能够主动的试探环境,在与环境交互的动态过程中获得知识,不断地提高系统自身的性能,通过积累经验明确系统当前性能与目标性能之间的距离,实施改进操作,提高系统追捕效率。本文以多个机器人追捕多个逃跑目标的过程为背景,探索多体机器人的协作机制为导向,提高多体机器人的协作效率为目的,研究了多个理性智能体在动态复杂环境下的协调与协作算法。研究主要包括如下几个方面:第一,提出了利用多机器人强化学习方法解决多机器人追捕问题的求解方案。根据多逃跑者追捕的需要,分析了协作联盟形成方法,引入关联规则数据挖掘方法进行任务分配,通过对比智能体各项属性及任务需求,针对各逃跑者建立相应的追捕联盟,基于不同状态下的奖励差异提出了一种分段式强化学习方法,利用其作为已知环境下追捕问题的模型求解追捕联盟的协作追捕策略。针对多机器人强化学习将会出现随着智能体数目增加导致的行为状态空间组合爆炸问题,利用降低多智能体系统的规模解决该问题,给出了基于任务规划多智能体强化学习方法及基于案例推理的多智能体强化学习方法,为本文研究未知环境下多机器人追捕行为策略提供了理论基础。第二,研究已知环境下多个追捕机器人形成追捕团队追捕多个逃跑者的协作追捕策略问题。首先对传统的主从式协作机制进行改进,通过对追捕区域分区减轻系统的负载,接着利用择优函数选择团队成员,形成追捕团队,然后预测逃跑目标下一时刻的位置决定追捕者的行为选择算法。通过分析上述方法的不足之处提出了一种基于关联规则数据挖掘的多机器人追捕策略算法。综合考虑与捕获逃跑目标相关的各种因素建立样本数据集,利用Apriori算法创建追捕团队,最后由于各追捕阶段追捕者与逃跑者之间的状态关系不同所获行为奖励差异,提出了一种分段式强化学习方法来求解多机器人最优协作追捕策略。第三,研究未知环境下多个追捕机器人形成追捕团队追捕多个逃跑者的最优协作追捕策略问题。首先通过有选择的循环搜索法对逃跑目标进行搜索,发现目标后,基于目标分解与分配的理论基础,通过整数规划模型求解各目标的追捕团队。接着根据任务规划的结果,让各协作团队同时分周期独立学习各自的最优行为决策,团队成员根据其他成员在此状态下将要采取的动作行为执行最佳的响应动作,多次重复对策后得到该协作团队的学习目的解。学习过程中由于不同协作团队之间的行为选择相互影响,对学习结果进行周期监督,通过变化学习率来保证学习的有效性。考虑上述方法对于追捕目标分解与分配是相对粗略的,整数规划问题实际求解过程本身也很复杂,创建追捕团队时没有考虑到追捕者之间完成捕获任务的能力互补等问题,提出一种未知环境下结合案例推理强化学习方法的多机器人协作追捕多个逃跑目标策略,创建追捕团队时充分考虑追捕者之间能力互补问题,追捕团队成员协作追捕过程中,追捕者的行为选择同时参照历史经验及实际追捕者与逃跑者所处的状态进行决策。试验结果表明,该算法能够明显提高复杂环境下多机器人协作追捕目标的效率。第四,开发了多机器人协作追捕目标仿真平台,为深入研究多机器人追捕目标问题提供了一个标准的试验平台。该仿真系统采用模块化设计,便于对新的算法进行仿真研究,并通过各种试验对本文所提方法进行了验证。