深度学习在强化学习中的应用研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:flapme
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习是机器学习的一个分支,其在许多研究领域得到了发展,现在已经被应用在了语音识别、计算机视觉、自然语言处理等任务当中。强化学习在可交互的环境当中通过试错进行学习,其与深度学习相结合形成了深度强化学习。现阶段,深度强化学习已经被应用在了机器人学、视频游戏、金融等领域。经验池(Replay Buffer)在很多深度强化学习算法当中被应用。因为计算机硬件的原因,经验池都会具有预算空间大小的限制。当预算空间被用完,通常做法是将经验池当中保存时间最长的样本遗忘(丢弃)掉,来为新产生的经验样本腾出存储空间。这种方式没有考虑样本之间的重要性差异,导致具有高价值的经验样本在被充分学习之前就被遗忘,从而造成了经验池的利用率不高。针对该问题,本文提出了一种基于样本重要性来决定遗忘顺序的优先遗忘经验回放算法(PFER),不再根据样本的保存时间长短来选择被遗忘的样本。优先遗忘经验回放算法给经验池当中的每一个样本赋予一个优先遗忘权重值,该遗忘权重值使用样本的时间差分误差(TD error)计算而来。样本的时间差分误差大,说明该样本还没有被充分学习,其需要被保留下来进一步被采样学习。在新的经验样本产生而经验池没有存储空间的时候,优先遗忘经验回放算法根据优先遗忘权重值来遗忘经验池里面的样本,从而使得经验池保存更多的高价值样本,提升高价值经验样本的利用率。在基于MuJoCo模拟引擎的环境任务上,具有优先遗忘经验回放算法的DDPG能提升学习效率,得到比原始DDPG算法和具有优先经验回放的DDPG算法更多的环境奖励值。针对优先权重的计算方式,本文进一步提出了使用时间差分误差和被采样次数来衡量样本重要性的增量式优先遗忘经验回放算法(IPFER)。该算法使用增量的方式来更新遗忘权重值,经验样本的每一次被采样学习都会使其遗忘权重值增加,增加的数值与时间差分误差相关,被采样的次数越多增加的次数就越多,优先遗忘权重值就会越大,从而其被遗忘的概率就会越大。在基于MuJoCo模拟引擎的实验环境当中,具有增量式优先遗忘经验回放的DDPG算法表现超过了原始DDPG和具有优先经验回放的DDPG,同时超过了具有优先遗忘经验回放的DDPG算法,在环境当中得到了更多的奖励回报。
其他文献
在山东省药物研究院教学实验楼方案设计中,探索传统建筑形态的新的表现形式与现代建筑空间的有机结合,营造层次丰富的教育空间。
汉语文化课指的是在课堂类型上区别于以语音、语法、词汇等为主要教学要素的以中国文化为基本内容的文化教学活动。当下,越来越多的韩国中小学开设了汉语课堂,它们不仅重视语言知识的习得,也十分注重中国文化的学习。本文以笔者在韩的汉语教学经历为依据,着重对文化教学进行了归结与反思。绪论部分重点阐述了本文的选题背景和意义,并对前人研究成果进行了适当的归纳,最后简要介绍了本文的研究思路、研究内容和研究方法。第一章
本文认为,人力资源会计制度设计应包含8个方面的问题(即8个W):1.What:什么是人力资源会计?2.Why:为什么要建立人力资源会计?3.Who:由谁来开展人力资源会计?4.When:何时开始动
语言是文化的负载体,文化与传播又密不可分。因此在跨文化交际活动中,翻译就担起了文化传播的重任。汉语文化负载词是中国最鲜活的文化印记,汉语文化负载词的英译会在很大程
随着放射科全面进行数字化摄片以后,工作及管理流程均发生了改变。应用PDCA管理循环结合继续教育来管理数字化摄片质控工作,制定质控检查及继续教育的计划和要求,分为计划制
写意电影是相对于写实电影的一种电影类型,它是重在传情达意、营构意境和表达含蓄。中国写意电影诞生于上个世纪三十年代,其后经由数代导演的努力,已产生许多作品,成为中国电
在高压聚乙烯装置的挤压造粒系统中,切粒机的切刀极易被损坏,进而导致产生拉丝料、片料、尾巴料、金检料等不合格料,严重影响产品质量,同时必要时需要停车处理,影响装置的正
智能体自主导航旨在让智能体像人一样具备安全高效的从起点移动到目标点,并且不和其他障碍物发生碰撞的能力。该技术是移动机器人实现更多高级功能的基础,是人工智能领域研究
对话式教学是小学数学生态课堂的一种教学形式,它以师生相互尊重、信任和平等为前提,以师生对话交流的方式进行双向沟通、共同学习和反馈,能够较好地实现对学生的数学思维的启迪
[目的]了解云南省宁洱县≥60岁农村老年人的睡眠质量现状和心脑血管疾病(高血压、冠心病、脑卒中)的患病现状,分析睡眠障碍的影响因素,探讨睡眠质量与心脑血管疾病之间的关系