论文部分内容阅读
随着计算机技术和无线通信技术的发展,多机器人系统的研究得到越来越多的关注。与单机器人相比,多机器人系统具有灵活,高效以及容错性强等特点。多机人系统在大型船舶制造,空间探测,无人作战系统,还社会和家庭服务等行业中都有广阔的应用前景。多机器人的智能围捕是一个常用的检验机器人学习策略优劣的平台,对智能移动机器人的产业化具有重要的意义。本文以多机器人围捕为研究对象,设计了一种新的围捕方法,具体内容如下:首先,本文对多机器人系统,强化学习以及多机器人围捕进行了综述,介绍了它们各自的发展历史和研究现状。其次,建立了机器人的动力学模型,设计了机器人硬件的部分电路,完成了上位机软件和下位机软件的编写,并简单介绍了强化学习的基本原理和方法,对强化学习的各个方法进行了简单的对比分析。再次,设计了多机器人围捕的任务模型,分析了机器人围捕过程中满足的一些条件。对于逃跑机器人,设计了一种智能的逃跑方式。对于围捕机器人,采用基于状态预测的强化学习算法进行围捕。针对把强化学习用于多机器人系统中时不满足马尔科夫决策的问题,引入状态预测的方法;针对Q学习算法的收敛速度慢和容易收敛到局部最优的问题,提出一种改进的Q学习算法,通过动态的调整Q学习公式中的α,γ,T三个参数,提高了Q学习算法的收敛速度,通过设置可变的max Q区间,避免了Q学习算法收敛到局部最优。最后,将基于状态预测的强化学习用于多机器人围捕中,并和常用的收缩包围圈法在无障碍物环境下,有障碍物环境下以及机器人出现故障下的围捕情形进行了仿真对比。还对围捕机器人速度临界条件进行了详细分析和仿真。在结论部分,对本文所做的工作进行了总结和展望,指出有待进一步研究的方向和问题。