论文部分内容阅读
为解决Q学习算法易陷入局部最优解问题,改进了传统贪婪策略,提出了一种分段渐近搜索策略。该策略通过动态调整策略参数,使Q学习算法在学习过程中实现探索-学习-利用3个阶段的渐近跳转。同时将该搜索策略应用于Q学习算法中,使改进的Q学习算法能更快速地逼近全局最优解。将改进算法应用于机械臂轨迹规划中,其仿真结果表明,该算法能稳定地引导机械臂沿最优轨迹快速到达目标位置。