论文部分内容阅读
目的 寻求更有效的解决延迟强化学习任务的基于即时差异的学习算法. 方法 针对吸收马氏决策过程提出一种λ取值具有自适应性的基于截断 T D( λ) 的 Q 学习算法,并在计算机上实现了该算法. 结果与结论 在最短路径搜索问题上的仿真研究表明采用自适应λ的基于截断 T D(λ) 的 Q 学习能够加速算法收敛。