基于情景记忆的深度强化学习算法及其样本效率研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:www752169
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为机器学习领域的重要研究子领域,强化学习主要研究智能体如何在与环境的不断交互中学习并做出行为决策这一问题及解决方法,在很多场景中都显现出巨大的研究价值和广阔的发展前景。通过将深度神经网络的强泛化性融入强化学习中,深度强化学习能在一些复杂任务中表现亮眼。但以往的许多深度强化学习算法都存在着样本效率低下的问题,它们通常需要和环境进行数千万次交互才能学习到较为智能的行为策略。近年来,一些研究者们发现情景记忆的使用可以记忆并回放历史最佳决策序列相关信息,从而帮助智能体快速锁定历史最佳动作,减少达到指定学习效果所需要的样本数,提升算法的样本效率。如何使用和改进情景记忆并用于提升深度强化学习算法的样本效率有着非常重要的研究价值。本文的主要研究工作如下:第一,本文提出情景记忆命中率深度Q网络(EMHR-DQN)算法,通过使用奖励塑形方法重塑情景记忆检索出的奖励值来提升样本效率。受启发于奖励塑形方法,本文设计了一个新的奖励塑形函数情景记忆命中率(EMHR)来为情景记忆的检索结果提供额外的奖励信息。通过这种方式,本文提出的方法可以修正情景记忆中的奖励从而帮助智能体更好的学习。在六个经典的雅达利游戏上进行了实验,结果表明了本文提出的方法可以在使用相同交互次数的情况下(40M)获得比其他算法更高的均值人类标准化分数和中值标准化人类分数,可以有效提升样本效率。第二,本文提出了基于状态表示增强的情景记忆强化学习算法(EMSR),在使用少量样本的情况下获得比先前算法更高的样本效率。具体地,本文使用一个转移模型来预测智能体未来多步的隐层状态表示来增强奖励的最大值,从而帮助智能体更快地学习策略。所提出的方法在雅达利游戏上进行实验,结果表明本文提出的方法可以有效提升算法的样本效率,并在使用小规模交互数(100k)时获得了比之前算法更高的游戏分数。本文从两个角度为使用情景记忆的深度强化学习算法如何提升样本效率提供了思路。在未来工作中,可以优化情景记忆的存储结构从而实现更加高速的检索,进一步提升算法的性能。
其他文献
近年来,人类活动和工业生产造成的NO排放导致了严重的环境问题,为满足各国制定的NO排放标准,NO减排方法的研究备受关注。电催化NO还原成NH3(NORR),由可再生的电力驱动产生具有化学增值的NH3,整个过程绿色环保,是一种具有广阔研究前景的NO减排方法。NORR效率的关键在于电催化剂,目前已有的贵金属材料,过渡金属复合物,非金属材料虽然被证明有较高NORR活性,但成本因素和竞争的析氢反应(HER
学位
随着化石燃料的逐渐枯竭和环境污染问题的日益加重,电动汽车市场得到爆发式发展。此外,当今人们的生活已经跟便携式电子产品密不可分。这些都为目前的电池技术带来了新的挑战。电动汽车和便携式电子产品的电池主要都是锂离子电池(Li-ion batteries,LIBs),同时钠离子电池(Na-ion batteries,NIBs)作为替代者也受到广泛关注。目前商业上使用的LIBs/NIBs存在的主要问题为低能
学位
甲苯作为一种毒性强、难降解的挥发性有机化合物,广泛存在于人类的生产生活中,对人体和生态环境造成严重影响。光催化氧化被认为是一种有效的环境净化技术,具有应用范围广、矿化能力强、反应条件温和、操作条件简单和二次污染物少等优点,在甲苯降解中有广阔的应用前景。半导体在吸收大于带隙的光子能量后,在价导带分别产生光生空穴和电子,参与表面氧物种的活化反应,生成的活性物种具有较强的氧化还原能力,从而达到对甲苯降解
学位
新股溢价现象一直是各国证券市场常见现象,由于投资者对新股的追捧,新股上市都会出现连续上涨的走势。鉴于国内证券市场起步晚于发达国家,诸多发行制度及政策制定尚不完善,A股新股溢价现象更为严峻。为了抑制新股市场的投机炒作,自2014年开始在A股实行首日限价政策,对新股上市首日价格涨跌作出±44%的限制,但政策实施后效果不及预期。因此本文以定价效率及其干扰因素为中心开展研究,聚焦投资者情绪,来研究该政策的
学位
回顾中国40多年经济体制改革历程,虽然目前已取得很大进步,但仍存在一些企业违法、违规等问题阻碍市场深化改革的不断发展。2020年4月,号称国民咖啡的“瑞幸”自爆财务造假。随后,瑞幸发布公告显示其在上市之前向保险机构购买了董事高管责任保险,由于保单金额大,保单复杂,涉及保险机构众多,该事件的曝光带火了在国内尚未发展起来的“冷门险”——董事高管责任保险,并引发了大家对于董责险的热议。为解决企业造假等违
学位
现实需求和学术发展决定了中西医结合是历史发展的必然,中医“辨证论治”也迎接新的发展机遇和挑战。在中西医结合背景下,中医“辨证论治”必须坚持传承与创新相结合的发展思路,详细剖析了中医“辨证”和“论治”的传承和创新发展路径,为更好实现“辨证论治”的传承创新发展,提出了建设性意见。最后,呼吁中医人砥砺奋发,为中医药传承创新做出自己的贡献。
期刊
近年来随着金融市场的发展与经济结构的转型,实体经济产能过剩、债务高企、融资受限以及国内需求明显不足等问题使实体产业的发展遇到阻碍,实体行业出现了脱实向虚的趋势,我国非金融企业出现了金融资产配置比率不断攀升的现象。同时,随着我国经济周期走到如今阶段,公司出现了多元化经营的趋势,向跨行业、全产业链方向发展,出现了大批集团化、全产业链经营,甚至跨行业多领域经营的企业。在金融资产配置比例不断提升对公司价值
学位
今年的政府工作报告提出经济增长目标为5.5%,已经明显低于以前的增速,稳增长压力较大,此时创新创业是保证就业和经济社会持续发展的关键举措。创新创业一方面起到吸纳就业和扩大需求的作用;另一方面也可以为我国产业结构的转型升级做出贡献,从而深化供给侧结构性改革。然而社会上创业现象并不非常普遍,这些一方面是由于创业风险高、收益可能达不到预期,另一方面是由于创业者缺乏必要的金融支持,这些都对我国居民家庭的创
学位
集成光学传感的发展为气体传感器的小型化、高灵敏度、低检测极限提供了道路。丙酮作为一种有机溶剂和工业原料有广泛应用,但是丙酮气体是一种轻度危害污染物质,一定条件下可能还会爆炸,并且被人体吸入后会严重危害人体健康。因此实现对丙酮气体浓度的检测,有助于保证生产,实验中的人身安全。此外丙酮气体的检测在畜牧业和医学检测领域中也有很大的价值。针对现有丙酮传感器的体积大,成本高,工作温度高,灵敏度较低等问题,本
学位
随着对现代风险理论研究的不断深入,聚合风险尾概率的研究领域也在不断拓宽。聚合风险尾概率是指在一段时间内风险组合的尾部概率,被广泛应用于破产理论和网络信息安全领域。国民经济发展到今天,由于保险和金融体系的复杂性,仅仅考虑独立性索赔的经典风险模型已经不足以满足现代生活的需要。因此,从目前的保险实务出发,考虑在保险风险以及金融风险中引入各种各样的相依结构,进而研究具有复合相依结构的聚合风险尾概率,是具有
学位