论文部分内容阅读
随着机器人技术的发展,移动机器人以其较高的自主性、智能性和对外界环境的自适应性,在星球探测、军事侦察、医疗服务、深海及核工业等领域都得到了广泛的应用。因此研究具有避障功能的移动机器人及其在未知环境下的避障路径规划具有重要的理论和现实意义。近年来,在诸多机器人避障方法中,激励学习因其不需要监督和先验知识且具有自学习的能力,逐渐应用到未知环境下移动机器人避障规划的研究中。然而在复杂连续环境下Q学习系统面临“维数灾难”问题,需要采取量化的方法来降低输入空间的复杂度,而径向基神经网络(RBFNN)具有较强的函数逼近能力及泛化能力,由此论文提出了基于RBF神经网络的Q学习方法并将其应用于单移动机器人的自主避障,使Q学习系统具有良好的泛化能力。本文从三个方面对Q学习算法进行了改进。1、引入RBF神经网络,采用动态聚类法离线训练样本集,确定隐含层的中心和宽度参数j。2、采用最小均方算法更新隐含层到输出层的权值Wm i。3、采用一个简单的三层RBF神经网络去逼近Q (s,a)值,将所有的输入向量量化到[0,1]之间。验证结果显示,与传统Q学习相比,基于RBF神经网络的Q学习避障方法可以增加自主移动机器人对环境的适应性,提高避碰能力,加速避障学习过程,从而提高移动机器人对未知环境的适应能力。