面向深度强化学习的经验回放方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:nadiazhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习方法将深度学习与强化学习相结合,目前已在多种复杂决策任务的处理中展现出了强大的通用性并取得了突破性的进展。利用深度神经网络构建网络模型并根据强化学习算法进行决策,在没有任何先验知识的情况下,智能体可根据环境反馈的奖赏信号学习执行策略。经验回放方法在网络训练过程中消除了样本之间的时序相关性,并使得一些样本可以重复利用,提高了数据的利用率。然而如何存储以及选取样本对网络训练有着显著的影响,为进一步提高深度强化学习中经验回放方法的性能,本文从以下三个方面进行研究并改进:(1)基于时序差分误差(Temporal Difference-error,TD-error)的优先级采样方法以TD-error绝对值衡量每个经验样本的重要性,然而神经网络参数的变化会影响经验缓冲池中样本的TD-error,导致在采样过程中会有偏差。针对该问题,以样本的立即奖赏值作为优先级采样的衡量标准,并通过经验样本中立即奖赏值的大小调整其采样概率,提出一种基于奖赏优先级采样的深度确定性策略梯度算法,通过在MuJoCo环境下的实验结果证明了该算法的有效性。(2)用于存储经验样本的经验缓冲池采用先进先出的存储方式,当经验样本变化时,优先级采样方法需要对新加入的样本赋予优先级并对原有的经验样本优先级进行修改,在获取样本时需要根据优先级进行采样,因此一定程度上增加了算法时间复杂度。为进一步提高算法效率,提出了采用分类经验回放的深度确定性策略梯度方法,分别根据经验样本中的TD-error和立即奖赏值两种分类标准进行分类,同样在具有连续状态动作空间的任务中验证了算法的有效性。(3)经验回放方法中,每一时间步将智能体Agent与环境交互产生的样本存入经验缓冲池中,当到达一定样本数量后从中选取每批次数量样本进行网络训练。为减小缓冲池中样本的冗余度,使每批次获取到的样本数据更丰富,设置多个钾能体Agent与环境交互产生经验样本,使网络训练能够拥有更充分和多样的样本数据,提出一种基于多Agent采样经验回放的深度Q网络方法,并在离散的强化学习任务中验证了算法的优越性。
其他文献
目的:检测胃癌中CUEDC2的表达,探讨其与临床预后的关系,及淋巴结转移的关系。方法:选取收集2017年10月-2018年10月在我院经病理确诊为胃癌并实行手术切除后的30例标本,采用免疫组化方法检测CUEDC2的表达,并结合临床病理因素进行分析及淋巴结转移的关系;采用PCR检测CUEDC2的mRNA在胃癌及癌旁组织中的表达;采用Western blot检测CUEDC2蛋白的表达情况。结果:1.免
半监督学习是当前深度学习领域研究的热点和难点之一,它是一种基于大量无标签样本以及少量无标签样本进行图像分类的方法。传统的半监督学习的主要方法有协同训练、半监督支
糖尿病严重并发症之一糖尿病性视网膜病变由于其发病率高、致盲率高引发了人们的关注。传统研究中,主要通过机器学习方法对采集到的患者眼底图像进行分类,并以医生的临床经验
模型修复是一种新的过程挖掘应用技术,它以事件日志和过程模型作为输入,通过对日志进行分析发现过程模型中出现的偏差,再对过程模型进行修复。修复后的模型应当与原始模式相
自无损检测技术的迅速发展,研究水稻等农作物的无损检测方法成为研究领域的热点之一,跨学科方法种类繁多,但多集中于遥感探测领域,由于近地面大气扰动和天气因素的影响,导致
未来无线通信网络中移动设备的大量增加会导致通信流量的指数增长。为了支持大规模移动设备通信,终端直通(D2D,Device-to-Device)通信技术和非正交多址(NOMA,Non-Orthogonal
跨语言词语表示方法能够把两种或多种人类语言的词语表示在一个共同的空间中,为各种语义计算和知识迁移提供基础支撑。大多跨语言词语表示方法,都需要某种形式的监督知识来训
阿尔茨海默症(Alzheimer’s disease,AD)是一种常见于老年人的脑退行性疾病,它不可逆转且目前缺乏有效的治愈药物。在社会老龄化问题日显突出的今天,越来越多老年人不但承受
稀疏重构模型在图像处理、压缩感知、复杂网络等领域中都有着广泛的应用,并且取得了令人瞩目的成就。因此,研究稀疏重构问题有一定的理论和实际应用价值。重构算法是稀疏重构
伏安电子舌是一种模仿人类味觉机制的新型检测仪器,近年来在食品检测领域发挥着重要作用,然而现有电子舌设备存在成本高、体积大以及难以实现现场快速检测等缺点,同时其现有