基于最大熵原理的强化学习

来源 :中央财经大学 | 被引量 : 0次 | 上传用户:jsjyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究的是基于最大熵原理对强化学习算法的优化改进问题。强化学习算法是机器学习算法的分支,相较于需要标签数据的监督学习算法,强化学习算法是通过智能体与环境的交互获得奖励值以训练模型,而在最大熵模型的框架下应用强化学习算法,则能实现算法的策略熵最大化,即对环境中的信息尽可能多的掌握,以实现智能体对环境的充分探索。本文通过对研究的强化学习算法的改进,提升算法的探索能力和稳定性,使得算法能够适应更加复杂的环境,节省计算成本。首先,本文综述了所研究的基于值函数选择行为的强化学习算法的优点、局限、以及改进的方向,并引出了本文的工作内容及创新之处。为使得算法能够对环境进行充分的探索,以应对环境突变造成的智能体选择最优路径却无法到达目标的状况,前人提出可以将熵和奖励设置成同样重要,使得算法在搜索的过程中,在保证探索环境所获奖励值达到最大的情况下,探索的策略熵值也达到最大,并使算法能够输出随机性策略,以解决算法存在的只能输出单一解的问题。为使得算法能够适应更加复杂的环境,又有人提出可以使用混合策略,但在最大熵模型的框架下应用这一策略,便需要对该策略的熵进行估计。然而各策略之间存在成对距离,这便使得混合策略的熵并不等于各策略熵的简单求和,故本文提出了一个混合策略熵的估计,可形象地定义为混合边际熵的加权和,本文证明了此定义的混合策略熵的方差,相对于各策略熵简单求和的方差是变小的。同时,对于强化学习算法探索的不确定性,主要体现在智能体采取的动作和其所处的状态的不确定性,而目前强化学习算法中所加入的熵,是基于当前状态的策略熵,当前状态是已知的、确定性的状态,这便使得算法的改进只考虑到动作的不确定性,而忽视了状态的不确定性,限制了智能体的探索,所以本文将策略熵计算中的当前状态替换为下一时刻状态,使得算法中策略的迭代改进能够同时考虑到动作和状态两方面的不确定性,以增强智能体对环境的探索能力。其次,本文根据上述改进思路,给出了改进后算法的优化目标和值函数的定义式,推导出了改进后策略的定义式,并证明了通过该策略定义式计算得到的Q值,将大于或等于较其他策略计算得到的Q值,即说明本文推导出的策略定义式至少能保证算法的Q值较其他方法定义的Q值是不会减小的,也就说明了该策略定义式是合理且有效的。同时,本文还对策略值函数的收敛性进行证明,得出算法改进后值函数的表达式,其经过迭代更新后,仍然是能够收敛的,从而证得改进后算法的收敛性。对于算法的实现,本文给出了用于构建Q值网络和策略网络的损失函数,推导出了损失函数的迭代梯度方向,将改进后的算法命名为SAMS算法,并给出了改进后算法的实现流程。最后,本文通过设计实验,检验了改进后算法的效果有所提升。本文基于Python语言对SAC算法和SAMS算法进行实现,并对物理仿真软件Mojoco中的Swimmer-v2、Hopper-v2、Walker2d-v2、Half Cheetah-v2、Ant-v2、Humanoidv2这6种环境进行测试,针对每种算法每种测试环境分别进行5次试验,计算5次试验的均值和方差以充分说明算法所能获得奖励值大小和算法的稳定性。定义了平均回报变化幅度、最后一个测试单位的平均回报及其方差等指标分析实验结果,最终发现在6种测试环境中,SAMS算法所得到的平均回报的增上幅度,总是高于或略高于SAC算法,即SAMS算法相较于SAC算法,其探索环境更容易在短时间内获得较高奖励值,其在迭代的初期收敛速度更快。同时在最后一个测试单位中,改进后的SAMS算法仍能保持与SAC算法大致相同的平均回报值,且在某些环境中SAMS算法的平均回报值有所提升。同时,比较最后一个测试单位平均回报的方差可以看出,SAMS算法计算所得方差略低于SAC算法,其计算结果波动幅度更小。这也就说明SAMS算法相较于SAC算法,其智能体探索环境所获奖励值在某些环境中有所提升,其所获奖励波动幅度变小,算法更加稳定。
其他文献
改革开放以来,我国粗放式经济发展带来了日益严重的环境污染问题,我国可持续发展能力的提升成为国家亟需解决的重大战略问题。2007年,《关于落实环保政策法规防范信贷风险的意见》提案,标志着我国绿色信贷政策的正式提出。商业银行贯彻落实绿色信贷是助力实现科学发展观的重要举措,这可以促进商业银行去积极承担社会责任,进而降低商业银行的信贷风险,树立良好的社会声誉。但同时,商业银行发展绿色信贷又会一定程度上增加
学位
农业对国家和地区的经济发展起着至关重要的作用。农业发展与自然资源环境密切相关,为保护农业弱质性,各国政府相继出台许多农业保护补贴政策,以此保障农业发展。在农业政策改革背景下,财政部和农业部在2015年选择安徽、山东、湖南、四川和浙江5个省开展三补合一试点,将原先分开进行的“三项补贴”合并为一项。2016年在全国范围内展开三项补贴改革,新政策命名为“农业支持保护补贴政策”,为积极促进耕地地力保护,实
学位
对“人”的理论观照始终是哲学研究的重要问题域。本文在对马克思早期经典文本考证和分析的基础上,从马克思对黑格尔与青年黑格尔派的历史批判、马克思人的本质理论的生成、“现实的人”的自我发展与超越三条线索层层深入展开,由此阐发马克思人的本质理论对以黑格尔与青年黑格尔派为代表的抽象人学的超越性价值,并最终探讨马克思人的本质理论的现实意义与时代价值。本文包括五部分内容。第一部分绪论,介绍了选题背景、研究意义、
学位
基金的过往业绩在市场差异化竞争中发挥信号作用,向投资者传递基金的质量信息,是投资者选择基金时的重要依据。每一年的高收益绩优基金都会成为投资者在下一年度投资时的重点关注对象。然而,能够持续优秀的产品少之又少,基金业绩反转是行业常态。Wind数据显示,截止2020年仅5只基金业绩连续近8年均同类排名前50%。基金业绩不持续的现象令投资者尤为困扰。从投资实务角度,若可以利用基金历史业绩预测未来业绩,那么
学位
新课程改革理念要求教师关注学生发展,除了学科发展外,班主任应学会用新的教育理论指导学生。文章首先阐述了激励理论在高三班级管理中的必要性、理论依据和价值,并在此基础上提出激励理论在高三管理中的实施方法。
会议
“营改增”是近年来我国政府最受瞩目的减税政策,但我国的宏观税负水平依旧偏高,因此时至今日“营改增”对企业的减税效果和深层次效应尚不明确。现有成果主要研究政策的某一阶段或个别实施行业的减税效果,而涉及到全部实施行业的两阶段“营改增”政策效果的研究却不多见,结论也不具有普遍代表性。本文分别以2013年和2016年在全国范围内推行的两阶段“营改增”为背景,以我国实施“营改增”政策的行业与企业为研究对象,
学位
一直以来,马克思主义与道德是否相容是马克思主义伦理学所研究的主要问题之一。自二十世纪七十年代以来,西方世界在分析的马克思主义学派的影响下,对马克思的道德理论研究更加高涨,很多人成为了马克思道德理论的拥趸,佩弗便是其中之一。在探赜之前,佩弗首先梳理了马克思道德思想的发展脉络,并通过批判功利主义后果论和非功利主义后果论这两种关于马克思主义道德理论实质的错误观点,重构了作为混合义务论的马克思主义道德理论
学位
随着世界金融市场的不断发展,金融市场对于复杂金融产品的需求日益提升,基于普通金融产品且更贴近市场发展的金融衍生品应运而生,期权作为最灵活、最复杂,也是种类最多的金融衍生品,具有买卖自由,风险可控并且收益可观的特性。自期权诞生以来,最受学者及投资者关心的问题即如何准确地确定期权价格。以往学者提出了诸如Black-Scholes风险中性期权定价模型、传统二叉树、三叉树定价模型以及蒙特卡罗模型等方法,但
学位
伴随女性主义发展而出现的关怀伦理学,为研究道德问题提供了迥异于“正义”的“关怀”视角。诺丁斯将关系作为关怀的基础,并把关怀伦理带入至教育与社会政策理论之中,不仅扩大了关怀伦理的研究界域与应用范围,而且在关怀伦理学的发展中起到了不可忽视的作用,激起了广泛而深刻的思想与实践效应。然而,当前国内学者对诺丁斯伦理思想的重视度稍显不足,对该思想缺少更多系统性的阐释,对其应用亦缺乏延伸性探究。因此,本文旨在系
学位
本文主要运用调和分析方法研究半直线上7阶KdV方程初边值问题的局部适定性。调和分析在色散方程适定性的研究中具有重要的作用,现已成为研究色散方程适定性的重要方法之一,调和分析的研究方法之一—Bourgain空间方法,被广泛运用于色散方程低正则适定性的研究。基于Colliander和Kenig提出的Duhamel边界作用算子有效地推动了色散方程初边值问题的研究,边界作用算子的作用是将初边值问题转化为初
学位