论文部分内容阅读
强化学习方法已经在许多领域中取得了巨大的成功。在强化学习中,智能体需要不断的与环境进行交互,从环境中获得评价式反馈,以此来调整策略。但是,当智能体处于反馈较为稀疏甚至是没有反馈的环境中时,强化学习方法就难以奏效了。而模仿学习是一种不依赖于环境反馈的学习方法,可以使智能体通过观察专家演示来学习策略。本文着眼于传统的模仿学习方法对专家样本要求较高的问题,提出了可以从第三人称专家示范中学习的数据高效的模仿学习方法。主要研究内容可以概括为以下三部分:(1)传统的模仿学习方法通常对专家的示范样本有着较高的要求,如样本为低维度特征数据、样本中包含有动作信息并且专家演示时所处的环境与智能体的一致,这些要求严重限制了模仿学习方法在现实中的应用。在现实生活中,专家演示的样本通常都以视频的形式存在,并且专家与智能体所处的环境通常会存在一些差异,这种更易获得的样本称为第三人称示范样本。但是由于第三人称示范样本与智能体所产生的样本之间存在着差异,并且缺乏直接的对应关系,所以第三人称示范样本很难被应用在模仿学习方法中。针对这一问题,本文在生成对抗模仿学习方法的基础上,结合了图像差分机制,提出了一种可以使用第三人称示范的模仿学习方法——GAIf O-ID。本文通过理论分析了算法的数据高效性,并在一系列仿真环境上进行了实验,证明了算法的优越性。(2)对于生成对抗模仿学习方法来说,判别器与策略之间的博弈训练过程是否平衡严重影响着最终学到的策略的性能。而在第三人称模仿学习任务中,专家示范样本与生成样本之间存在着明显的领域特征差异,这很容易导致判别器过强,策略难以在博弈过程中获得有效的反馈信息进行改进。针对这一问题,本文引入了变分判别器瓶颈,并对其进行了改进,提出了GAIf O-ID-VDB。该方法通过限制判别器对于生成样本的判别,削弱了判别器的强度,促使判别器为策略提供更加准确的反馈信息。(3)第三人称专家示范难以被应用于模仿学习方法的一个主要原因就是与智能体生成的样本之间缺乏直接的对应关系。针对这一问题,本文在GAIf O-ID-VDB的基础上额外引入了一个图像转换模块,可以将专家示范从第三人称视角转换到智能体的第一人称视角,以此消除专家样本与生成样本之间的领域特征差异,使智能体能够更好的从第三人称专家示范中学习专家策略。