论文部分内容阅读
机器人技术的发展使机器人的能力不断提高,机器人应用领域和范围不断扩大。路径规划作为移动机器人技术的一个重要组成部分,对它的研究具有重要的理论意义和工程应用意义,而多机器人协同工作下的路径规划更是一个研究热点。
增强学习是近几十年来迅速发展起来的一类机器学习方法。增强学习不需要有先验知识,而是通过与环境的不断交互获得知识,改进行为策略,具有自学习能力。增强学习由于自身的特点,在自主机器人研究领域中受到了国内外越来越多的重视。本文将致力于基于增强学习算法的多移动机器人协同路径规划的研究。
基于马尔可夫过程的增强学习能够很好地应用于单智能体环境中,而由于增强学习的特点,在多智能体系统中马尔可夫过程模型不再适用,因此不能把增强学习直接用于多智能体的协作学习问题。
为此本文首先提出了基于增强学习的分布式控制的多智能体协作方法。该方法主要通过在每个智能体中构筑两层增强学习单元来实现,第一层增强学习单元负责学习智能体的联合任务协作策略,第二层学习单元负责学习智能体内最有效的行为策略。
另外,本文还提出了基于智能体运动特征的增强学习奖赏函数。
在静态、动态环境下的多智能体协同搬运实验表明本文提出的方法能有效地完成搬运任务。此外,在动态环境下的多智能体协同搬运实验表明基于智能体运动特征的奖赏函数使智能体更早发现较优路径并很好地完成了协作任务。