基于经验池重采样的强化学习算法优化

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:liongliong468
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习作为机器学习的一个重要分支,主要解决的是满足马尔可夫性质的序贯决策问题。强化学习通过与环境进行交互获得回报,并根据回报对原有的策略进行优化,逐步逼近最优策略,也即序贯决策问题的解。优先经验回放(PER)是一种重要的深度强化学习技术,可以帮助智能体提高经验的利用效率,从而实现更快的策略更新。然而,PER并不改变智能体学习并存储在重放缓冲区中的历史信息是固定不变的这一现状。相反,要想高效地学习一种好的策略,智能体往往需要最新的交互信息。现有的优先经验回放算法采用时序差分误差(TD-error)作为优先级在一定程度上考虑到了经验之间的重要性差异。但是时序差分误差由于其仅仅是通过前一步的策略计算得出,无法满足学习的时效性。本文针对这一问题提出了一种奖励优先经验回放算法(RPER)。算法通过将奖励映射成权重,实现了更频繁的重放重要经验,最终提高了样本的利用效率。本文将算法应用到双延迟深度确定性策略梯度算法(TD3)中在Mu Jo Co实验环境中进行测试,获得了比原始采样方式更好的效果。同时,针对现有的经验回放算法不考虑采样概率平衡性的问题,本文提出平衡优先经验回放算法(BPER)。该算法在考虑到经验之间的重要性差异基础上,平衡采样概率,让后进入到经验池中的经验也得到了充分训练。该算法在应用到TD3算法后,在Mu Jo Co实验环境中,取得了比RPER更好的效果。
其他文献
新股溢价现象一直是各国证券市场常见现象,由于投资者对新股的追捧,新股上市都会出现连续上涨的走势。鉴于国内证券市场起步晚于发达国家,诸多发行制度及政策制定尚不完善,A股新股溢价现象更为严峻。为了抑制新股市场的投机炒作,自2014年开始在A股实行首日限价政策,对新股上市首日价格涨跌作出±44%的限制,但政策实施后效果不及预期。因此本文以定价效率及其干扰因素为中心开展研究,聚焦投资者情绪,来研究该政策的
学位
回顾中国40多年经济体制改革历程,虽然目前已取得很大进步,但仍存在一些企业违法、违规等问题阻碍市场深化改革的不断发展。2020年4月,号称国民咖啡的“瑞幸”自爆财务造假。随后,瑞幸发布公告显示其在上市之前向保险机构购买了董事高管责任保险,由于保单金额大,保单复杂,涉及保险机构众多,该事件的曝光带火了在国内尚未发展起来的“冷门险”——董事高管责任保险,并引发了大家对于董责险的热议。为解决企业造假等违
学位
现实需求和学术发展决定了中西医结合是历史发展的必然,中医“辨证论治”也迎接新的发展机遇和挑战。在中西医结合背景下,中医“辨证论治”必须坚持传承与创新相结合的发展思路,详细剖析了中医“辨证”和“论治”的传承和创新发展路径,为更好实现“辨证论治”的传承创新发展,提出了建设性意见。最后,呼吁中医人砥砺奋发,为中医药传承创新做出自己的贡献。
期刊
近年来随着金融市场的发展与经济结构的转型,实体经济产能过剩、债务高企、融资受限以及国内需求明显不足等问题使实体产业的发展遇到阻碍,实体行业出现了脱实向虚的趋势,我国非金融企业出现了金融资产配置比率不断攀升的现象。同时,随着我国经济周期走到如今阶段,公司出现了多元化经营的趋势,向跨行业、全产业链方向发展,出现了大批集团化、全产业链经营,甚至跨行业多领域经营的企业。在金融资产配置比例不断提升对公司价值
学位
今年的政府工作报告提出经济增长目标为5.5%,已经明显低于以前的增速,稳增长压力较大,此时创新创业是保证就业和经济社会持续发展的关键举措。创新创业一方面起到吸纳就业和扩大需求的作用;另一方面也可以为我国产业结构的转型升级做出贡献,从而深化供给侧结构性改革。然而社会上创业现象并不非常普遍,这些一方面是由于创业风险高、收益可能达不到预期,另一方面是由于创业者缺乏必要的金融支持,这些都对我国居民家庭的创
学位
集成光学传感的发展为气体传感器的小型化、高灵敏度、低检测极限提供了道路。丙酮作为一种有机溶剂和工业原料有广泛应用,但是丙酮气体是一种轻度危害污染物质,一定条件下可能还会爆炸,并且被人体吸入后会严重危害人体健康。因此实现对丙酮气体浓度的检测,有助于保证生产,实验中的人身安全。此外丙酮气体的检测在畜牧业和医学检测领域中也有很大的价值。针对现有丙酮传感器的体积大,成本高,工作温度高,灵敏度较低等问题,本
学位
随着对现代风险理论研究的不断深入,聚合风险尾概率的研究领域也在不断拓宽。聚合风险尾概率是指在一段时间内风险组合的尾部概率,被广泛应用于破产理论和网络信息安全领域。国民经济发展到今天,由于保险和金融体系的复杂性,仅仅考虑独立性索赔的经典风险模型已经不足以满足现代生活的需要。因此,从目前的保险实务出发,考虑在保险风险以及金融风险中引入各种各样的相依结构,进而研究具有复合相依结构的聚合风险尾概率,是具有
学位
作为机器学习领域的重要研究子领域,强化学习主要研究智能体如何在与环境的不断交互中学习并做出行为决策这一问题及解决方法,在很多场景中都显现出巨大的研究价值和广阔的发展前景。通过将深度神经网络的强泛化性融入强化学习中,深度强化学习能在一些复杂任务中表现亮眼。但以往的许多深度强化学习算法都存在着样本效率低下的问题,它们通常需要和环境进行数千万次交互才能学习到较为智能的行为策略。近年来,一些研究者们发现情
学位
“韭菜”一词在基民中屡见不鲜,而基金也成为近几年来金融行业的热门领域和话题,普通投资者渴望通过买卖基金份额来实现资产的保值与增值,机构投资者则通过不断变动投资组合来实现盈利,因此基金行业不论是在促进资本市场快速发展,还是维护金融市场稳定,降低系统性风险方面,都发挥着至关重要的角色,而开放式基金作为基金产品中重要的一员,凭借其可以随时申购和赎回,即流动性强的优势,得到非常多基民和机构投资者的青睐,同
学位
多功能电子器件的密集堆积密度和高速运行导致了大量的热产生。因此,在常温下有效的热管理对高性能电子器件快速散热至关重要。高分子材料由于价格低廉、耐腐蚀性强以及具有良好的电绝缘性,因此被电子封装领域广泛使用。然而,大多数高分子材料的导热系数很低,仅为约0.1-0.3 W/m K,因此,寻找一种导热性更好的填料嵌入聚合物复合材料中是有意义的。比如用石墨烯等导热填料增强聚合物复合材料是提高导热性的有效策略
学位