基于值函数估计偏差修正的确定性策略梯度

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:koukou333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能技术已经被成功地应用于各种生活场景中。强化学习是人工智能技术中的一个热门研究领域,已经在电子游戏、机器人和自动驾驶等领域获得了一定的成功。强化学习的思想是:智能体通过与环境不断地交互,从得到的环境反馈信息中调整、优化动作策略,从而解决序列决策的问题。深度强化学习将函数逼近与强化学习的思想相结合,可用于解决高维状态空间和动作空间任务。但是,当使用函数逼近技术时,由于函数近似误差的存在,容易造成对值函数的高估,从而恶化策略性能。本文针对Q值函数估值偏差问题,提出了两种缓解Q值函数过估计的强化学习算法,主要工作内容分为以下两部分:(1)针对使用单个值函数估计器容易造成过估计,使用双值函数估计器容易造成欠估计的问题,提出了基于加权集合Q网络的确定性策略梯度(WEQ)。首先,分别分析单个值函数估计器导致过估计、双值函数估计器造成欠估计的问题。然后,提出一种组合多值函数估计器的方法,在每次更新值函数网络参数时,从值函数估计器集合中随机抽取两个值函数估计器分别输出两个Q值。最后,取这两个Q值的最小值与所有网络输出值的均值加权相加,从而得到Q值函数更新过程中的时序差分目标。该时序差分目标的计算方法将过估计和欠估计相结合,达到平衡低估和高估的目的。本文所提WEQ不仅可以通过调整权重因子来控制估值偏差,而且还可以有效降低估值过程中误差的方差,减小训练过程中的波动。(2)针对值函数在迭代过程中容易产生过估计的问题,利用值分布包含更多价值信息的特性,提出了基于值分布的确定性策略梯度(TQSW)。首先,在分位数回归的基础上,将值分布网络输出的分布中所有分位点混合,并从得到的混合分布中截去部分最大位置的分位点。其次,使用剩余分位点组成的混合分布来计算目标分布,以缓解值函数过估计问题。然后,引入基于值函数估值标准差计算得到的稳定权重系数以降低算法训练过程中的波动,提升模型的稳定性。最后,通过最小化预测分布和目标分布之间的瓦瑟斯坦距离来训练值分布网络。本文所提TQSW不仅可以通过调整截去混合分布中最大位置分位点的数量有效控制估值偏差,而且还可以通过稳定权重系数有效增强训练过程的稳定性,提升算法性能。本文在MuJoCo连续控制任务中验证了所提强化学习算法的性能。实验结果表明:本文所提算法可以有效控制估值过程中的偏差,并且在实验任务中获得了更高的回报。本文中包含图16幅,表5个,参考文献82篇。
其他文献
榆神府矿区是我国重要的煤炭生产基地,对我国能源安全和国民经济发展意义重大。近年来随着一批特大型煤矿的陆续投产,高强度综合机械化开采引发的水害(溃沙)事故却频有发生。本文以榆神矿区杭来湾煤矿为例,对其突水危险性进行了预测研究,该研究将为矿井302盘区接续开采的防治水工作提供依据。论文主要研究成果如下:(1)在以往勘探钻孔搜集和统计分析的基础上,系统研究了第四系含水层、隔水层,顶板侏罗系基岩砂岩含水岩
学位
由于固体氧化燃料电池(Solid Oxide Fuel Cell,SOFC)在作为能源使用时清洁、高效等特点,一直被认为是最有前途且可以绿色使用的能源装置之一。燃料电池可以直接将碳氢化合物(如煤气、天然气、沼气等)中所含的化学能直接地转变为电能,因其这一优越性,备受人们的关注。但若沼气中所含的甲烷成分和SOFC电池的阳极电源直接接触,会严重的影响到镍基阳极的稳定性,因此,如何优化基阳极抗积碳的性能
学位
半导体光催化产氢被认为是解决日益严重的环境问题和能源危机的有效且环保的策略。层状结构的Zn In2S4(ZIS)因其良好的可见光捕获能力、合适的带隙、高化学稳定性以及低毒性成为光催化产氢优良的候选材料。遗憾的是,低的载流子分离效率和缓慢的表面反应动力学使得ZIS的光催化活性并不理想,阻碍了其在光催化领域中的应用。本文以ZIS光催化剂为研究对象,围绕如何提高空间电荷分离效率从而增强光催化性能尝试了几
学位
江苏省作为人均经济产出最大的省份,其土地利用状况一直是专家学者们研究的焦点问题。随着城市的持续高效发展,对土地利用也提出了更高的要求。因此,对江苏省土地利用变化的时空规律进行分析、模拟,有利于为今后实现江苏省土地利用高质量发展提供参考。本文基于2005年-2020年江苏省社会经济的统计数据和多期的土地利用数据,综合运用了数学统计分析、遥感处理、GIS空间分析等多种方法,结合江苏省出台的国土空间规划
学位
学位
锂硫电池(Li-S)具有高能量密度(2600Wh kg-1)和高理论容量(1675mAh g-1),同时硫资源丰富,对环境友好,被认为是最具有商业潜力的二次电池之一。但是,锂硫电池的活性物质硫及其放电最终产物硫化锂(Li2S)导电性差,且中间体多硫化锂(Li PSs)溶解于有机电解液产生穿梭效应,活性物质丧失,导致其循环性能差,阻碍了商业化进程。为了解决上述问题,本论文从导电性,抑制多硫化锂穿梭效
学位
露天矿在开采过程中随着剥离物料的不断排弃会形成数量众多、形态各异的排土场,排土场的的力学性质和变形特征对矿山安全开采具有重要意义。排土场是由剥离物料排弃而形成的松散土石混合体边坡,在排弃过程中排土场边坡土石含量会随着不同的开采参数及排弃方式而变化,研究和掌握不同含石率下的松散土石混合体力学特性及其边坡稳定性变化规律,可为露天矿安全高效开采及灾害防治提供理论依据和工程指导。论文以露天矿排土场剥离物料
学位
本翻译实践报告原文节选自两位社会学领域专家罗莎琳德·S·周和乔·R·费金创作的《模范少数族裔的神话》一书第七章《再现与结论》。该书深入探讨了来自不同国家和社会阶层的亚裔美国人遭受种族主义的经历,并通过受访者采访实录清晰佐证这一事实。笔者选取第七章节作为翻译项目原文,意在借由本文使译者和译文读者更加了解美国社会的真实现状,并在美国的种族歧视方面有更深刻的了解,进而推动世界人权事业的发展。约翰·卡特福
学位
国内汽车工业迅速发展,废轮胎数量持续增长,不仅污染水源、污染土壤,还会危害人体健康。目前,将橡胶颗粒掺入到混凝土中,能够改善混凝土抗渗、抗碳化等多方面的性能,还为解决橡胶污染提供了有效的途径,对国家可持续发展的政策具有重要意义。本文主要研究了纳米Si O2内生成橡胶混凝土的抗压强度、微观结构特征、元素分布、物相组成、孔隙结构、孔径分布等。主要成果有:(1)通过立方体抗压试验,研究了橡胶掺量、橡胶粒
学位
科技的进步为制造型企业带来不断的技术升级和设备更迭,设备已经成为产品制造过程中十分重要的一环,设备若是能够运作效率高、故障次数少、维修成本低,企业便能够以更低的成本和更高的效率生产产品,也更有利于立足市场以及竞争客户。而设备的故障次数和维修成本都取决于设备的维修策略,因此制定科学经济的维修策略对于企业来说至关重要。本文基于可靠性的相关理论研究设备的预防维修策略,主要研究内容如下:(1)通过对Z公司
学位