探索区域扩张相关论文
基本Q-学习算法总是利用当前最优策略进行动作的选取,这样容易陷入局部最优。文章在模拟退火强化学习基础上提出了基于探索区域扩......
未知连续环境状态下的Q学习路径规划算法在执行对环境的试错时收敛速度慢,容易陷入局部,不利于对真实未知环境的探索,为解决此问题......
针对Q-学习算法中探索与利用之间的平衡问题,在基于Metropolis准则的Q-学习的基础上,提出了基于探索区域扩张策略的Q-学习改进算法。......