折扣奖赏相关论文
折扣最优判据是当今激励学习领域广泛使用的判据.本文分析了折扣最优判据存在的问题,对基于折扣最优判据的PW-SARSA(λ)算法进行了......
会议
本文以随机逼近的形式,提出了一些用于求解平均奖赏Markov决策过程系统方程的在策略无模型激励学习算法。这些算法与广泛且成功 应......