论文部分内容阅读
针对传统强化学习中Q学习算法在机器人路径规划过程中易引发维数灾难及搜索效率低的问题,提出一种深度强化学习算法。在Q学习算法中引入深度学习,通过深度学习网络对参数进行不断的训练和优化,利用网络输出值来替代传统的Q值表,从而避免陷入维度灾难。另外针对算法的过估计问题,设计了一种深度双Q学习策略,其中包含了两个网络结构对机器人的执行动作和决策评估进行分别计算。同时采用重回放机制,改善算法收敛性。最后,利用贝塞尔曲线对路径进行平滑。仿真表明,深度强化学习算法相较于Q学习算法,路径各项指标得以提升,对机器人工作运行更为有利。