论文部分内容阅读
Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TDError的角度出发,给出n阶TDError的概念,并将n阶TDError用于经典的Q(λ)学习算法,提出一种二阶TDError快速Q(λ)学习算法——s0E—FQ(λ)算法.该算法利用二阶TDError修正Q值函数,并通过资格迹将TDError传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算