论文部分内容阅读
该文针对典型的觅食任务,以计算机仿真为手段,直观地揭示噪声对机器人系统性能的影响。在此基础上,提出了以过程奖赏(process reward)代替传统的结果奖赏(resu lt reward),并与优先扫除(prioritized sweep ing)的强化学习算法结合作为噪声消解策略。然后与基于结果奖赏的Q学习算法(Q-learn ing)等其它四种算法进行比较,结果表明基于过程奖赏和优先扫除的强化学习算法能显著降低噪声的影响,提高了系统整体性能。