论文部分内容阅读
针对传统强化学习算法在执行学习任务时只在完成一系列动作后获得奖赏,不能对每个动作进行奖赏分配,无法满足复杂实时任务的要求。本文提出了过程奖赏Course Reward-CR,关心的是完成任务过程中的每个动作和趋势,实时对其进行奖赏.并提出了一种基于过程奖赏和优先扫除PrioritizedSweeping-PS的强化学习算法PS-CR。借助机器人觅食任务进行了仿真研究,并与Q学习算法、基于过程奖赏的Q学习算法Q-CR和优先扫除算法PS进行了对比.结果表明本文提出的强化学习算法在系统性能和学习速度上都有很大的提高,并能适用于动态环境.