策略约束型强化学习研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:z178933143
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能已成为世界各国重要的国家发展战略之一。如何让智能系统通过感知外界环境、实现自主地学习并完成相应决策任务仍然是当前人工智能领域面临的一项挑战。强化学习是解决上述挑战的有效人工智能技术。在强化学习中,智能体在与环境的交互中学习,利用评价性的反馈信号实现决策的优化。为了探索到最优策略,在改进策略时,基于值的强化学习算法采用贪婪策略改进机制。不幸的是,传统贪婪策略改进忽略了智能体训练过程中的值函数估计误差,进而导致学习到的策略与最优策略之间的策略性能差异增大,并加剧了策略改进过程的不稳定性。另外,近端策略优化(PPO,Proximal Policy Optimization)、信赖域策略优化(TRPO,Trust Region Policy Optimization)等策略约束型同策略强化学习算法在每一次策略更新中都近似地强制执行约束条件以保证策略改进过程的稳定性。但是,目前尚不清楚如何将策略约束优化思想与不属于策略梯度家族的方法结合使用。为此,本文分别针对在线情形和离线情形下的策略约束型强化学习,研究如何提高策略学习过程的稳定性、学习速率和降低策略性能差异。主要工作包括:(1)针对PPO裁剪边界设置保守的问题,提出可信边界近端策略优化(ABPPO)。首先,分析了PPO的裁剪操作对保守策略迭代目标函数的影响,给出了PPO裁剪边界与TRPO信赖域边界之间的关系,设计了一种可信边界设置规则。然后,在此基础上提出了ABPPO。为了确保策略更新过程中新旧策略差异能更好地保持在裁剪范围内,基于回滚剪裁和惩罚策略差异的思想,分别提出两个改进的PPO算法:基于回滚裁剪的可信边界近端策略优化(RMABPPO)、基于惩罚策略概率差异的可信边界近端策略优化(P3DABPPO)。(2)针对异策略Actor-Critic中Q函数估计不准和智能体探索能力不足的问题,提出一种基于相对熵矫正策略改进的鲁棒Actor-Critic(RAC)。首先,利用当前估计Q函数下的局部最优策略来引导策略改进,设计出一种鲁棒策略改进机制(RPIM)。RPIM通过约束策略改进过程中新旧策略之间的相对熵,提高策略改进过程的稳定性。理论分析表明:在更新策略时,RPIM赋予了策略熵增加的激励,有利于提高智能体的探索能力。然后,应用所提出的RPIM来矫正策略改进过程,提出RAC。最后,从理论上证明RAC的收敛性。(3)针对策略迭代的加速问题,提出一种基于耦合策略改进的双并行策略迭代(DPPI)。与常规的策略迭代不同,DPPI考虑了两个并行的策略迭代。首先,在每个策略迭代步,分别评估两个并行策略的性能,并将较优的策略定义为主导策略。然后,主导策略以柔性方式引导并行策略改进。理论分析表明:在一定条件下,每次并行策略改进所获得的两个新策略的Q函数都大于之前所有主导策略的Q函数,这在一定程度上有助于加快策略迭代过程,提高学习效率。其次,在理论上证明了DPPI的收敛性。最后,将DPPI与双延迟深度确定性策略梯度(TD3)相结合,提出了并行TD3。(4)针对离线强化学习中存在的分布偏移问题,提出广义行为正则化离线Actor-Critic(GOAC)。首先,为了降低分布偏移对策略改进过程的影响,同时降低学习到的策略与最优策略之间的策略性能差异,GOAC在优化策略时约束行为策略和当前策略之间的斜对称JS散度。理论分析表明:由于斜对称JS散度有界,将其作为策略差异度量有助于降低策略性能差异。然后,为了克服行为策略未知的问题,设计了一个辅助网络来估计行为策略和当前策略之间的斜对称JS散度。最后,从理论上证明了GOAC的收敛性。本文在基于OpenAIGym和Mu JoCo物理引擎的控制套件平台上评估了所提策略约束型强化学习算法的有效性。实验结果表明:本文所提出的策略约束型强化学习算法在奖励、稳定性、学习速度等指标上均达到或超过其它先进强化学习算法。
其他文献
用高能射线辐射来改性高分子材料具有环境污染小、均一性好、反应程度可控等优点,已经在工业界实现了广泛应用。本文用γ射线对反式-1,4-聚异戊二烯(TPI)进行了辐照改性,发现TPI发生交联。随辐照剂量增大,TPI交联度升高。综合利用核磁共振波谱(NMR)、红外光谱(FTIR)、差示扫描量热(DSC)、广角X射线衍射(WAXS)、动态力学分析(DMA)、电子顺磁共振波谱(EPR)等测试手段,深入研究了
学位
风电等可再生能源具有无污染,低成本的优点,近年来备受关注。但是风电等可再生能源有较大的不确定性,难以准确预测,调度时易产生较大的弃风和切负荷。由于场景法可以准确体现不确定性的概率特征,将不确定性问题转化为确定性问题进行求解,因此在电力系统调度中被广泛使用。传统多场景生成法未合理考虑风电的时序性,多场景削减法对于削减前后场景信息的保留程度较低,多场景调度模型未充分利用场景概率信息。因此,如何充分利用
学位
在软件开发过程中,软件缺陷难以避免,而软件缺陷修复是保证软件质量的重要手段之一。但是随着软件的规模和复杂度的上升,传统的软件缺陷修复方法面临能力不足和成本昂贵等问题。因此,研究人员提出基于机器学习的自动软件修复方法来提升程序修复的自动化程度。基于机器学习的自动软件修复方法可以降低修复成本,还可以无需人工干涉而自动修复软件缺陷,研究基于机器学习的自动软件修复方法对缺陷修复领域的理论研究和实际应用有重
学位
滑坡作为一种重大的地质灾害,对工程建设和人类生命财产安全造成严重威胁。锚杆由于施工简单、支护效果好并能充分调动岩体自身的承载力等在边坡治理工程中得到广泛应用,但面临岩体开挖、高地应力以及岩体的剪切变形破坏等问题时,传统锚杆也表现出变形能力弱、抗剪能力差等缺点。边坡锚固体系演化是岩体-锚杆相互作用的过程,二者具有协同演化的特征,研究锚固体系的协同演化规律,揭示岩体与锚杆的相互作用机理以及锚杆的锚固机
学位
科学技术的飞速发展,逐渐改变着人们传统的作业方式。工业机器人正在一步步的解放工人肩上的高强度工作,一步步实现作业的自动化。不同的工作环境需要具备不同功能属性的机器人,需要根据具体环境做出具体的设计。本课题针对煤矿巷道轨道铺设的特点,设计出一种龙门架式轨道铺设机器人,既能满足煤矿巷道的环境要求,又能取代人工搬运和铺设工作,有效降低工人的工作强度。本文的主要研究内容如下:(1)根据煤矿巷道现场的具体环
学位
混凝土材料在复杂环境中服役时,其耐久性面临严峻挑战。钢筋锈蚀是混凝土构件耐久性下降的重要原因,主要是由于氯离子通过不同尺度的孔隙进入混凝土内部所造成的。水化硅酸钙(C-S-H)作为水泥基材料的主要水化产物,其内部含有大量的孔隙,包括凝胶孔和毛细孔,尺寸集中分布在0.5nm~20nm。因此探究微纳尺度下氯离子在C-S-H中的传输机理具有十分重要的意义。本文应用实验测试、理论分析和数值模拟相结合的办法
学位
矿井粉尘是煤矿生产过程中的主要灾害之一,严重威胁着煤矿的安全生产和职工的身体健康。煤矿井下的现阶段的主要除尘方法为水喷雾除尘、表面活性剂抑尘和泡沫抑尘等,但上述方法耗水量较大,对于积尘难以起到较好的抑制作用。基于上述背景,本文提出了环境友好的生物抑尘剂术,对抑制二次扬尘具有重要的实际意义与应用价值。以巴氏芽孢杆菌为研究对象研究了巴氏芽孢杆菌的活化与培养以及培养基的选用与配置过程。分析了巴氏芽孢杆菌
学位
城市地区周边环境复杂敏感,对深基坑工程的稳定性提出了较高的要求。现阶段,土质基坑的支护设计及稳定性控制已比较成熟,但对于硬岩深基坑滞后支护的研究相对较少。本文综合运用室内试验、理论分析、数值模拟和现场试验等手段,对城市地区硬岩深基坑滞后支护条件下支护结构与岩土体相互作用、围护结构变形特征及基坑稳定性控制等问题进行了系统研究,主要研究成果如下:(1)建立了硬岩深基坑围护结构力学模型,得到了围护结构侧
学位
为研究早龄期深大冻结井筒内壁混凝土温度变形,本文综合运用试样试验、数值计算和模拟试验方法,研制了细石导电混凝土相似材料;研究了新筑导电混凝土内壁模型的电热效应,获得了内壁模型早龄期混凝土的温度场和应变场发展规律,初步研究了早龄期深大冻结井筒内壁混凝土裂缝扩展形态。首先,采用正交试验方法,研制了C60细石导电混凝土配合比,研究获得了该配合比1d、3d和7d龄期的热物理、力学特性和坍落度,确定了胶凝材
学位
肠道微生物群对宿主免疫系统的发育十分重要,对无菌动物的研究表明,肠道特定菌群的缺失会导致严重的免疫系统缺陷。作为现存最古老的脊椎动物之一,七鳃鳗在进化上具有极为特殊的地位。七鳃鳗的生命周期十分复杂,在不同发育阶段的进食习惯也不相同,为了适应环境的变化,其肠道微生物的结构和组成也随之发生改变。因此以七鳃鳗不同发育时期肠道微生物的比较研究作为切入点,对于探讨七鳃鳗适应性免疫发育和调控具有重要的意义。基
学位