论文部分内容阅读
提出一种新的集成规划的SARSA(λ)强化学习算法.该算法的主要思想是充分利用已有的经验数据,在无模型学习的同时估计系统模型,每进行一次无模型学习的试验后,利用模型在所记忆的状态/行动对组成的表中进行规划,同时利用该表给出了在学习和规划之间的量化折中参考.实验结果表明,本算法比单纯的无模型学习SARSA(λ)算法有效.