论文部分内容阅读
用机器学习方法,特别是增强学习方法(Reinforcment learning: RL)提高移动机器人在未知环境中的控制性能和对环境的自适应能力,是自主移动机器人导航与控制研究领域一个非常重要的发展趋势。因此,本文在国家自然科学基金项目“基于核的增强学习与近似动态规划方法研究”的支持下,主要围绕增强学习中近似策略迭代(Approximate policy iteration: API)算法的性能评估、基于核的最小二乘策略迭代算法(Kernel-based least-squares policy iteration: KLSPI)的参数自动优化、近似策略迭代在移动机器人避障控制和自主驾驶车辆纵向速度学习控制中的应用进行研究。取得的主要成果和创新包括:1、首先对API算法进行了性能评估,通过实验对比分析,验证了API算法,特别是KLSPI在解决值函数平滑的序贯决策问题时性能更优,表明序贯决策问题值函数的平滑程度是影响API算法性能表现的重要因素。为克服KLSPI算法中核函数参数手动选择的不足,本文通过对初始样本进行ε-球近邻分析,得到稀疏化的核词典基础上,又提出了基于Bellman残差梯度下降的核函数宽度优化方法。仿真测试验证了这种核函数参数优化方法的有效性。2、对移动机器人自主避障行为决策过程进行Markov决策过程(Markov Decision Processe: MDP)建模之后,将滚动窗口路径规划和增强学习中的API算法相结合,提出了一种面向未知环境的移动机器人自主避障学习控制方法。仿真验证了该方法的泛化性能和对未知环境的自适应能力。同时,对两类不同的API算法用于自主避障时的学习效率进行了对比分析,结果表明基于KLSPI的自主避障方法可以更快地收敛到近似最优策略。3、在对高速公路自主驾驶车辆的研究现状、重难点问题和自主学习控制系统的研究意义进行分析后,对高速公路环境下车辆运动控制过程进行了MDP建模,提出了用于高速公路环境下自主驾驶车辆纵向速度控制的API学习控制方法,并对该学习控制方法进行了仿真研究。仿真结果表明基于API的学习控制方法可以实现对自主驾驶车辆期望速度较为准确的控制,为下一步自主驾驶车辆学习控制的深入研究打下了基础。