论文部分内容阅读
多移动机器人是机器人研究的主要内容之一,路径规划、运动控制是移动机器人完成各种任务的关键。采用机器学习特别是强化学习方法实现多机器人环境中路径规划和运动控制,是近年来机器人研究的热点。本论文研究了多机器人环境中运动控制策略的强化学习,本文的研究工作主要从四个方面展开:动态环境中的建模规划、多障碍环境中的运动控制策略学习和优化、强化学习方法的改进研究、基于多机器人仿真实验平台的策略强化学习研究。 在动态环境中的机器人控制研究中,提出了一种基于模糊概念和可能性理论的环境建模方法,在此基础上进行模糊决策,有效的实现动态运动控制,获得高效的实时、避障规划效果。 在多障碍环境中的移动机器人路径规划方面,提出了人工势场法和蚁群优化算法相结合的路径规划方法,将人工势场作为先验知识,对蚁群优化算法进行初始化,和已有的蚁群路径规划算法相比,显著提高了规划速度。 在对强化学习方法的改进方面,针对传统算法在大状态空间中学习效率低的问题,提出针对模糊状态的强化学习算法(FSRL),并基于模糊状态实现离散状态空间中的多尺度学习;考察蚁群优化算法的状态相关性特点,在时间学习尺度上对传统算法进行改进,提出蚁群强化学习算法(RAL)和延迟优化学习算法(DORL);并应用于多障碍环境路径规划,和基于传统强化学习的路径规划方法相比,显著提高了规划性能。 根据实际应用时环境状态的不确定性、学习过程中策略的不确定性,在随机变量熵的概念下,提出强化学习中的决策熵,来定量度量学习过程中策略的不确定性(即策略收敛程度);提出强化学习中的状态熵,来描述观测状态信息不完整引起的不确定性;基于决策熵,提出具有自适应学习率的学习算法,通过多障碍环境路径规划仿真实验,表明自适应学习率有效的提高了学习性能。 基于TeamBots多机器人仿真实验平台,进行了多机器人目标搜索和机器人足球的策略学习实验,应用改进的自适应学习率方法成功实现多移动机器人环境中的控制策略学习,并且足球机器人仿真实验中,通过强化学习实现了机器人之间的协作分工。