数据高效的第三人称模仿学习方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:DreamerL
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习方法已经在许多领域中取得了巨大的成功。在强化学习中,智能体需要不断的与环境进行交互,从环境中获得评价式反馈,以此来调整策略。但是,当智能体处于反馈较为稀疏甚至是没有反馈的环境中时,强化学习方法就难以奏效了。而模仿学习是一种不依赖于环境反馈的学习方法,可以使智能体通过观察专家演示来学习策略。本文着眼于传统的模仿学习方法对专家样本要求较高的问题,提出了可以从第三人称专家示范中学习的数据高效的模仿学习方法。主要研究内容可以概括为以下三部分:(1)传统的模仿学习方法通常对专家的示范样本有着较高的要求,如样本为低维度特征数据、样本中包含有动作信息并且专家演示时所处的环境与智能体的一致,这些要求严重限制了模仿学习方法在现实中的应用。在现实生活中,专家演示的样本通常都以视频的形式存在,并且专家与智能体所处的环境通常会存在一些差异,这种更易获得的样本称为第三人称示范样本。但是由于第三人称示范样本与智能体所产生的样本之间存在着差异,并且缺乏直接的对应关系,所以第三人称示范样本很难被应用在模仿学习方法中。针对这一问题,本文在生成对抗模仿学习方法的基础上,结合了图像差分机制,提出了一种可以使用第三人称示范的模仿学习方法——GAIf O-ID。本文通过理论分析了算法的数据高效性,并在一系列仿真环境上进行了实验,证明了算法的优越性。(2)对于生成对抗模仿学习方法来说,判别器与策略之间的博弈训练过程是否平衡严重影响着最终学到的策略的性能。而在第三人称模仿学习任务中,专家示范样本与生成样本之间存在着明显的领域特征差异,这很容易导致判别器过强,策略难以在博弈过程中获得有效的反馈信息进行改进。针对这一问题,本文引入了变分判别器瓶颈,并对其进行了改进,提出了GAIf O-ID-VDB。该方法通过限制判别器对于生成样本的判别,削弱了判别器的强度,促使判别器为策略提供更加准确的反馈信息。(3)第三人称专家示范难以被应用于模仿学习方法的一个主要原因就是与智能体生成的样本之间缺乏直接的对应关系。针对这一问题,本文在GAIf O-ID-VDB的基础上额外引入了一个图像转换模块,可以将专家示范从第三人称视角转换到智能体的第一人称视角,以此消除专家样本与生成样本之间的领域特征差异,使智能体能够更好的从第三人称专家示范中学习专家策略。
其他文献
伴随社会的全面发展,居民不但物质生活水平得以提高,消费观念和居住认知也在潜移默化中发生了微妙的调整,居民更加注重健康生活,对体育运动的消费需求相应增加,体育地产的建
降水是地球水循环的重要过程,与水文、气象等过程密切相关,降水研究对于气候变化、水文循环、干旱监测等科学研究都具有重要意义。高精度、高时空分辨率的降水产品对水文过程
机器学习已在很多现实任务中取得了成功。成功背后往往依赖于充分的标注数据。然而,在现实任务中,标记数据的获取困难,数据产生的速度远大于数据标注的速度。不依赖充分标记
互联网社交媒体近年来的迅猛发展,海量文本数据每日在各种社交媒体上生成和传播,伴随着人们对成本要求的提高,自动化的从互联网上的文本信息提取关键信息并生成相应文本就越
语音信号处理作为一个重要的研究领域,与高速发展的信息时代有着密切联系。由于噪声和混响的干扰,在许多语音信号处理系统中,目标信号往往是含噪语音信号。被污染的语音对语
本文是一篇解释性的群像式报道,带着“六年过去,同学们的生活现状是什么样的?过去六年里他们经历了什么不同寻常的故事?这样的经历对他们产生了什么样的影响?作为从同一个班
药有限,方无穷,药有个性之特长,方有合群之妙用,"君臣佐使"的组方原则,"相须,相使、相恶"的作用规律。是祖国医学整体观和辨证论治的集中体现。方剂是理法方药中的一个重要环
会议
随着现代医学的不断进步和发展,对手术室的洁净条件和功能的要求越来越高。创建洁净手术室已成为当代医学发展的趋势。我院层流手术部于2005年正式投入使用。现有两处层流手
会议
骨桥蛋白(Osteopontin,OPN)是一种潜在的癌症生物标志物,快速检测骨桥蛋白在护理诊断和生物医学应用方面有着巨大的应用前景。目前,大多数OPN检测平台都是依赖于体积较大的仪
前人研究发现英国和美国被试搜索尖角朝下的三角比搜索尖角朝上的三角更快、更准确,并用"威胁性图形(Shape of Threat)"进行解释,认为尖角朝下的三角这种简单的几何图形可能