无记忆策略相关论文
SARSA(λ)和Q学习算法是两类最重要的激励学习算法。该文结合一些已有算法,提出了一个新的激励学习算法,称为PW-SARSA(λ)算法。通过......
针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种......