论文部分内容阅读
随着移动机器人技术的飞速发展,应用于未知环境下的移动机器人路径规划技术得到了越来越多专家的关注与研究。强化学习是一种重要的机器学习方法,通过不断试错与环境交互寻找最优策略。针对未知环境下的移动机器人路径规划问题,研究基于强化学习的移动机器人路径规划。
首先,针对强化学习机器人面临的探索与利用间的权衡问题,设计一种基于近似动作空间模型策略选择的Q-学习算法。该方法根据机器人运动过程中周围的环境信息,降低机器人真实动作空间模型的复杂程度,提高计算效率。与传统的动作选择策略相比,基于近似动作模型的策略选择方法能够得到一条更加优化的路径,且提高了机器人路径规划的成功率。
然后,针对复杂动态环境下的机器人路径规划问题,采用分层强化学习的方法,将路径规划系统从上至下分为根任务协作层、子任务选择层和环境交互层三层结构,并将路径规划任务划分为静态障碍物避障、动态障碍物避障及趋向目标点运动三个基本子任务,减小状态空间以及系统学习的难度。
最后,搭建移动机器人系统的软硬件平台,在Ubuntu操作系统和ROS(RobotOperating System,机器人操作系统)软件框架下,实现数据通信,并设计Pioneer3-AT移动机器人的三维仿真模型和三维仿真环境,实现基于强化学习的移动机器人路径规划的三维仿真实验,然后结合Pioneer3-AT移动机器人进行实物实验。实验结果证明移动机器人在未知环境下通过自主学习能够自主运动到达目标点。
首先,针对强化学习机器人面临的探索与利用间的权衡问题,设计一种基于近似动作空间模型策略选择的Q-学习算法。该方法根据机器人运动过程中周围的环境信息,降低机器人真实动作空间模型的复杂程度,提高计算效率。与传统的动作选择策略相比,基于近似动作模型的策略选择方法能够得到一条更加优化的路径,且提高了机器人路径规划的成功率。
然后,针对复杂动态环境下的机器人路径规划问题,采用分层强化学习的方法,将路径规划系统从上至下分为根任务协作层、子任务选择层和环境交互层三层结构,并将路径规划任务划分为静态障碍物避障、动态障碍物避障及趋向目标点运动三个基本子任务,减小状态空间以及系统学习的难度。
最后,搭建移动机器人系统的软硬件平台,在Ubuntu操作系统和ROS(RobotOperating System,机器人操作系统)软件框架下,实现数据通信,并设计Pioneer3-AT移动机器人的三维仿真模型和三维仿真环境,实现基于强化学习的移动机器人路径规划的三维仿真实验,然后结合Pioneer3-AT移动机器人进行实物实验。实验结果证明移动机器人在未知环境下通过自主学习能够自主运动到达目标点。