基于强化学习的多机器人围捕策略研究

来源 :东北大学 | 被引量 : 5次 | 上传用户:dddddddddddddzzzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和无线通信技术的发展,多机器人系统的研究得到越来越多的关注。与单机器人相比,多机器人系统具有灵活,高效以及容错性强等特点。多机人系统在大型船舶制造,空间探测,无人作战系统,还社会和家庭服务等行业中都有广阔的应用前景。多机器人的智能围捕是一个常用的检验机器人学习策略优劣的平台,对智能移动机器人的产业化具有重要的意义。本文以多机器人围捕为研究对象,设计了一种新的围捕方法,具体内容如下:首先,本文对多机器人系统,强化学习以及多机器人围捕进行了综述,介绍了它们各自的发展历史和研究现状。其次,建立了机器人的动力学模型,设计了机器人硬件的部分电路,完成了上位机软件和下位机软件的编写,并简单介绍了强化学习的基本原理和方法,对强化学习的各个方法进行了简单的对比分析。再次,设计了多机器人围捕的任务模型,分析了机器人围捕过程中满足的一些条件。对于逃跑机器人,设计了一种智能的逃跑方式。对于围捕机器人,采用基于状态预测的强化学习算法进行围捕。针对把强化学习用于多机器人系统中时不满足马尔科夫决策的问题,引入状态预测的方法;针对Q学习算法的收敛速度慢和容易收敛到局部最优的问题,提出一种改进的Q学习算法,通过动态的调整Q学习公式中的α,γ,T三个参数,提高了Q学习算法的收敛速度,通过设置可变的max Q区间,避免了Q学习算法收敛到局部最优。最后,将基于状态预测的强化学习用于多机器人围捕中,并和常用的收缩包围圈法在无障碍物环境下,有障碍物环境下以及机器人出现故障下的围捕情形进行了仿真对比。还对围捕机器人速度临界条件进行了详细分析和仿真。在结论部分,对本文所做的工作进行了总结和展望,指出有待进一步研究的方向和问题。
其他文献
立体视觉三维重建技术的研究是计算机视觉学科的一个重要领域,有助于实现非接触三维测量与快速建模。该项技术工作效率高,有利于提高工作环境的自动化程度,是三维建模的一个重要
从刚性悬挂的特点分析入手,对浩吉铁路刚性悬挂施工的改进方法进行研究.主要阐述了悬臂支撑装置安装,安装中心锚结和终端锚固,安装汇流排,安装膨胀接头等方面的工作步骤及注
思想政治教育是学生素质教育的灵魂,教育部印发的《关于进一步加强高等学校学生思想政治工作队伍建设的若干意见》中指出:“采取切实措施,建设一支精干、高素质的高等学校学生思想政治工作队伍,是保证学校坚持社会主义办学方向,全面贯彻党的教育方针,培养德智体美等方面全面发展的社会主义事业建设者和接班人的一支不可缺少的重要力量。”每个高校党委,都应该站在培养社会主义事业建设者和接班人的高度,坚持加强学生思想政治
期刊
资源受限项目调度问题(RCPSP)是一类重要的调度问题,它要求在满足项目时序约束和资源约束的条件下,安排所有工作的开工期和完工期,以达到某一最优的目标。该问题理论上属于NP
随着深空探测任务的不断开展,着陆器自主导航系统的设计作为深空探测的关键技术之一,其水平直接关系着整体任务的成功与否。陨石坑是天体表面常见的视觉特征,将其作为导航陆
运动目标的视觉行为分析是计算机视觉中近年来备受关注的研究领域。它以摄像机拍摄得到的包含运动目标的序列图像为研究对象,以运动目标的行为分析和理解为研究目的,对序列图