平均奖赏相关硕士博士期刊学术论文

取消了平均奖赏激励学习的单链或互通MDPs假设，基于有效跟踪技术和折扣奖赏型SARSA(λ)算法，时传统的平均奖赏激励学习进行了推广，提......

期刊

强化学习在人工智能领域中是一种重要的解决学习控制问题的方法.在强化学习中,平均奖赏类型的强化学习方法适用于解决具有循环特性......

期刊

针对采用折扣奖赏作为评价目标的Q学习无法体现对后续动作的影响问题,提出将平均奖赏和Q学习相结合的AR-Q-Learning算法,并进行收......

期刊

本文以随机逼近的形式，提出了一些用于求解平均奖赏Markov决策过程系统方程的在策略无模型激励学习算法。这些算法与广泛且成功应......

期刊

零阶学习分类元系统ZCS（Zeroth-levelClassifierSystem）作为一种基于遗传的机器学习技术（Genetics-BasedMachineLearning），在解决多步学......

期刊