基于熵的深度强化学习优化算法

来源 :苏州大学 | 被引量 : 0次 | 上传用户:qq912214209
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习将深度学习与强化学习相结合,成功地在一些复杂且需要高维度感知的决策任务中获得了突破性的成果。深度强化学习方法中一个很重要的问题就是探索与利用的平衡。基于熵的异策略深度强化学习方法在兼顾样本利用率的同时也最大化了策略的探索程度,取得了非常优秀的学习效果。熵的引入使得基于熵的异策略深度强化学习方法在一定程度上解决了探索的问题,可以在更短的时间里学习到更优秀的模型。为了进一步提高当前流行的基于熵的异策略深度强化学习方法的性能,本文主要做了以下三个方面的工作:(1)随机加权三重Q学习方法。在类行动者-评论家算法的学习过程中,剪切双Q学习(Clipped Double Q-learning,CDQ)可以在一定程度上解决动作值高估的问题,但是同时也引入了一定程度的低估问题。为了进一步解决类行动者-评论家算法中的高低估问题,提出了一种新的随机加权三重Q学习(Randomly Weighted Triple Q-learning,RWTQ)方法。该方法通过对三个Q估计值的均值与最小值进行随机加权来有效地缓解在基于熵的异策略深度强化学习算法中的高低估现象。经过实验验证,该方法可以在一定程度上更好地解决基于熵的软行动者-评论家算法中的高低估问题并提升算法性能。(2)奖赏优先经验选择方法。基于熵的深度强化学习算法在立即奖赏中加入了一个熵正则项。因为这个正则项的存在,算法会倾向于探索更多的动作。传统的经验池在经验池达到最大值时按照先入先出的顺序丢弃经验,这样会导致一些奖赏值较高的经验没有被充分地利用。为了解决这一个问题,提出了一种新的奖赏优先经验选择(Reward First Experience Selection,RFES)方法。该方法通过选取经验时超额选取并按奖赏大小选取经验元组进行更新的方式来有效提高大奖赏经验的利用效率,从而提升基于熵的类行-动者评论家算法的学习性能。经过实验验证,该方法可以有效地提升基于熵的深度强化学习算法的收敛速度与收敛效果。(3)基于熵的深度强化学习机器人控制应用。深度强化学习可以赋予机器人以传统学习无法赋予的环境交互以及自主学习能力。为了将基于熵的深度强化学习优化算法更好地应用到机器人控制中,将该类算法与后见之明经验回放方法相结合,提出了一种基于熵的深度强化学习机器人控制方法。该工作可以更好地将基于熵的深度强化学习优化算法应用到实际的工业界机器人控制领域中,对机器人控制与深度强化学习相关领域研究者的工作具有一定的参考价值。此外,为了能将该方法落实到应用,实现了基于熵的深度强化学习机器人控制模型训练系统。
其他文献
随着生物医学领域的发展,相关文献资料呈现出指数级增长的趋势,如何快速高效地从大量生物医学文献中提取出有价值的信息和知识已成为一个亟待解决的问题。生物医学事件抽取任务是从生物医学文献中自动抽取出生物事件,并以结构化的形式表示出来。本文对生物医学事件抽取任务进行研究,主要内容包括:(1)基于流水线方式的生物医学事件抽取。本文使用先进的预训练语言模型实现了一个基于流水线的生物医学事件抽取框架。该框架将生
学位
场景图生成任务是一项新兴的计算机视觉任务,生成图像内容的结构化表示,缩短图像处理和理解间的语义差距,具有广泛的应用前景。针对VG(Visual Genome)数据集失衡问题,论文从知识图谱(ConceptNet)中分别引入类别相关、局部结构和全局结构的外部信息提高生成场景图的质量。主要工作内容如下:(1)针对类别相关语义信息不足的场景图偏置问题,提出了外部信息引导和残差置乱的生成方法。该方法引入与
学位
图像超分辨率重建目的是提高图像空间分辨率、改善视觉效果,具体包括一般重建技术和插值技术。现有算法可分为基于图像自身信息的算法和基于外部数据的学习算法,后者能够从外界获得先验信息,从而生成高质量的图像。本文围绕“混合模型”和“随机森林”两种学习类算法开展研究,并提出重建效果更佳的算法。图像中一般都会存在大量相似的局部结构。基于这一事实,学习类的重建算法将配对的高、低分辨率图像块作为输入,按照“先聚类
学位
隐式篇章关系识别任务旨在根据句法信息、语义信息和上下文信息等线索推理论元对之间的篇章关系。该任务因缺乏显式连接词等直接推理线索,需依赖论元充分的语义表示帮助推理,是自然语言处理领域中一项基础且颇具挑战的任务。本文为挖掘论元更丰富的语义表示,基于宾州篇章树库v2.0,提出了基于多粒度和交互敏感的隐式篇章关系识别研究,主要包括三个部分:第一部分是短语级表示学习方法。短语信息因为天然的语义内聚性,是识别
学位
预训练模型的出现将自然语言处理带入了一个新的时代。对多种自然语言处理任务,借助预训练模型取得的性能已经远超过传统的方法。然而,目前预训练模型的可解释性较差,对句子语义的捕获能力还有待进一步分析。AMR(Abstract Meaning Representation,抽象语义表示)是一种基于图结构的语义表示方法,能够提供句子级别精准的语义表示。AMR与预训练模型作为有机整体相辅相成。一方面,借助AM
学位
近年来,随着计算机技术的发展和人工智能的兴盛,人们对于计算机视觉的研究也进一步深入,在工业、军事、交通等领域都取得了长足进展,其中以医学领域的技术革新最为引人注目。肋骨骨折作为一种常见骨科疾病,主要通过相关医疗设备对患者胸腔肋骨的医学图像进行采集,最后由医生根据影像进行诊断。在借助机器学习、深度学习方法后,医疗设备可以提取肋骨骨折图像的特征并在此基础上实现初步判断。作为现代医疗辅助技术的重要工具,
学位
<正>《习近平著作选读》第一卷、第二卷出版座谈会5月22日在京召开,中共中央政治局常委、中央书记处书记蔡奇出席会议并讲话。他表示,编辑出版《习近平著作选读》是党中央作出的重大决定,是党和国家政治生活中的一件大事,要把学习选读作为坚持用习近平新时代中国特色社会主义思想凝心铸魂的重大政治任务,推动把学习宣传贯彻习近平新时代中国特色社会主义思想和党的二十大精神引向深入,引导广大党员干部更加深刻领悟“两个
期刊
随着我国经济的迅猛发展,城市内车辆数量急剧增加。私家车在给人们带来出行便利的同时也不可避免的带来了一些问题,其中最为严重的便是交通拥堵。部署在城市路口的信号灯能够直接影响交通流的行驶趋势,因此优化城市信号灯控制模型是缓解拥堵最有效的方法之一。信号灯控制策略优化从本质上来讲是序列决策优化的问题,由于强化学习能够在与环境的交互中优化决策,因此将强化学习应用于信号灯控制领域具有非常可观的前景。针对上述分
学位
强化学习是通过与环境交互来实现给定目标的学习范式,有强大的决策能力。近年来,凭借深度学习强大的表征能力和日益增长的计算能力,深度强化学习在许多领域取得了重大突破,展现出了巨大的应用潜力。基于最大熵强化学习框架,柔性行动者-评论家算法(Soft Actor-Critic,SAC)较好地平衡了探索和利用,在连续动作控制领域上实现了稳定性和最终性能的统一。基于SAC,本文提出了应用于深度强化学习的近期加
学位
多回合对话回应选择是自然语言处理领域的一个热门方向,旨在最大限度地模仿人与人之间的对话方式,使得人类能够用更自然的方式与机器进行交流。准确、无歧义的人机对话能够最大限度降低机器的使用门槛,方便人们生活。多回合对话回应选择任务主要包含三个步骤:文本潜在语义信息的挖掘和整合、对话上文与备选回应交互信息的挖掘和整合以及结果的预测。而已有的研究存在以下问题:对话上文信息与备选回应间的关联关系未充分利用、对
学位