论文部分内容阅读
随着机器人技术的发展,机器人已开始应用到未知环境,与已知环境下的移动机器人路径规划研究相比,对于未知环境的探索带来了新的挑战。由于在未知环境下,机器人不具有环境的先验知识,移动机器人在路径规划过程中不可避免的会遇到各式各样的障碍物,因此,研究具有灵活规划和避障功能的移动机器人及其在未知环境下的路径规划具有非常重要的实际意义。本文以移动机器人在未知环境探索中的路径规划为研究背景,利用强化学习算法实现机器人的路径规划。原有的强化学习算法Q-learning算法和Q(λ)算法可以实现移动机器人的路径规划,但是在较大环境和复杂的环境下,这两种算法很难达到理想的效果,其最大的缺陷就是学习时间长、收敛速度慢。为了解决这些问题,本文提出了单链序贯回溯Q-learning算法,在学习过程中建立状态链,通过回溯的思想改善Q-learning学习中数据传递的滞后性,使当前状态的动作决策能够快速的受到后续动作决策的影响,并应用到单个机器人和多个机器人在未知环境下的路径规划中,解决学习速度慢的问题以及机器人的避障和避碰问题,使移动机器人能够快速有效的找到一条最优的路径,并通过仿真实验验证了算法的有效性。文章首先分析了移动机器人路径规划的研究背景和意义,综述了目前移动机器人路径规划技术的国内外研究现状以及存在的主要问题,并简单介绍了本论文的主要内容和章节框架。其次,介绍了移动机器人路径规划技术的主要类型,并对全局的路径规划算法和局部的路径规划算法进行了详细阐述;针对本文采用的强化学习算法,这部分详细介绍了强化学习算法的研究现状和发展趋势以及存在的问题,对强化学习算法的基本概念、原理和方法进行了说明,并描述了该算法在路径规划中的应用。第三,针对目前路径规划领域应用广泛的Q-learning算法和Q(λ)算法学习时间长、收敛速度慢、难以应用到较大较复杂环境的缺陷,提出了利用回溯的思想进行状态数据更新的高性能算法---单链序贯回溯Q-learning算法应用到移动机器人在复杂环境下的路径规划,通过在不同大小不同复杂程度的环境下的实验,验证了该算法的快速收敛性和大环境下的实用性,为移动机器人路径规划问题提供了一种崭新的方法。第四,以多个移动机器人系统为研究对象,利用提出的高性能的强化学习算法,通过机器人之间在不确定环境下的学习策略解决探索过程中的路径规划问题,实现每个机器人的避障和机器人之间的冲突问题,提高到达目标点的效率。最后,对本论文所做工作进行总结,并提出了下一步的研究方向。