论文部分内容阅读
讨论模型未知的平均报酬强化学习算法。通过结合即时差分学习与R学习算法,将折扣问题中的一些方法推广到了平均准则问题中,提出了两类算法:R(λ)学习。现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例。仿真结果表明,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高。