论文部分内容阅读
<正>众所周知,强化学习(RL)是一种强大的技术,它能够解决诸如移动(locomotion)、Atari游戏、赛车游戏以及机器人操作等复杂的任务,而这些全部是通过在一个奖励函数上训练智能体以其优化行为实现的。但是,对于许多任务来说,我们很难设计一个既容易训练又能产生理想行为的奖励函数。假设我们想要一个机械手臂学习该如何将一个环放到一个钉子