基于主动探索的模型化深度强化学习算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:lxg19841130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习是现代人工智能领域中一个重要的研究分支,可分为两大类:无模型和模型化。其中,模型化方法有较高的样本效率,但其渐近性能通常落后于无模型方法。最近,结合贝叶斯神经网络和模型预测控制的模型化方法,在有限时域的控制任务中的渐近性能可媲美无模型方法。然而,此类方法存在探索效率低下的问题。同时,其采用的模型预测控制算法,不仅在线规划的性能欠佳,而且部署阶段的计算复杂度大。针对上述问题,本文提出一种基于主动探索的模型化深度强化学习算法,主要研究内容包含如下三个部分:1)为了提升模型化方法的探索效率,本文提出一种模型不确定性感知的主动探索算法。首先通过最大化信息增益,推导出一种模型不确定性感知的探索奖励,然后利用深度神经网络集成和Wasserstein距离来近似实现,最后利用模型预测控制完成高效的主动探索。该算法仅需原有模型预测控制产生的环境状态数据,不需要额外用于探索的模型。在显著提升探索效率的同时,避免增加模型冗余度。2)为了提升在主动探索中模型预测控制的性能,本文提出一种基于重要性采样的模型预测控制算法。首先,在面向强化学习的贝叶斯推断框架下,利用多元高斯分布近似最优动作序列的后验分布。然后,通过重要性采样和矩估计法,最小化该高斯分布和后验分布的KL距离。相比传统的交叉熵方法,该算法引入动作熵来鼓励探索,并充分利用动作序列样本间累计奖励的差异。在提升控制性能的同时,减少算法迭代次数。3)为了降低部署阶段的计算复杂度,本文提出一种有限时域的模型化离线策略优化算法。在策略评估阶段,利用蒙特卡罗法在环境模型中采集有限时域的轨迹样本,以拟合动作值函数;在策略提升阶段,利用随机梯度下降法来最小化策略分布与动作值函数构建的玻尔兹曼分布的KL距离。由于策略网络的计算成本较低,所以该算法在逼近模型预测控制性能的同时,显著降低计算复杂度。本文基于四组稀疏奖励或探索难度高的强化学习环境进行实验,在样本效率、控制性能和执行效率这三方面验证了本文提出的整体算法及其三个算法部分的有效性。
其他文献
目的:探讨下肢动脉介入治疗在糖尿病足患者下肢血管狭窄或闭塞中对血运重建的意义,观察下肢动脉介入治疗联合负压封闭引流技术在糖尿病足治疗中的临床效果。方法:收集苏州大学附属第一医院2016年7月至2019年2月期间伴有下肢动脉狭窄或闭塞的糖尿病足患者46例,随机分为观察组与对照组,对照组23例患者中,男10例,女13例,年龄44~69(56.5±12.5)岁,观察组23例患者中男12例,女11例,年龄
通过手势识别可以控制目标对象,基于手势识别的人机交互在游戏娱乐以及智能家居等领域的应用已逐渐融入我们的生活;另一方面,由于我国是一个残疾人口大国,手势识别对语言功能
在各类传感器中,贴片式应变片是最重要的智能传感器之一,广泛应用于应变、加速度和拉力的测量以及健康监测。随着人们对智能化和微型化电子设备需求增长,柔性可拉伸应变传感
目的探讨 CD4+CD25+CD1271owTreg 细胞中 Foxp3 的表达及 CD4+CD25+CD127 low/Foxp3 Treg在泡球蚴感染中的作用机制。方法将小鼠分为泡型包虫病组、健康对照组。用流式细胞仪
元素是环境空气颗粒物的重要组成成分,主要来源于煤、石油等化石燃料的燃烧,冶金、塑料等工业排放和汽车尾气排放等,易通过呼吸道进入人体,引发呼吸道和心血管疾病,甚至诱发
标准是规范人们进行各项活动不可或缺的准则,在推动行业和社会稳定向前发展方面功不可没。随着近几年图书发行行业的迅速发展,社会对图书发行行业标准的修订也越来越频繁。由
目的:目前的临床研究已经证实对于D2根治术后的胃癌患者,辅助替吉奥(S-1)单药治疗1年或卡培他滨联合奥沙利铂(XELOX)治疗6个月可显著提高患者生存。但目前,与单纯手术相比,S-1联合奥沙利铂(SOX)是否可给术后患者带来明显生存获益仍不明确。本研究回顾性评估了胃癌患者D2根治术后SOX辅助化疗的临床疗效和安全性。方法:收集2009年9月-2011年12月于国内四家医院行D2根治术的胃癌患者。
在将深度学习应用于遥感舰船识别任务中时,通常需要大量训练集数据对深层神经网络参数进行调节,但由于遥感舰船影像的获取通常需要消耗大量人力物力,因此,如何针对遥感舰船影
以醋酸镉和硫化钠为原料,采用简单的离子交换反应制备纳米硫化镉可见光催化剂。利用化学吸附法,在CdS纳米颗粒的表面吸附少量的聚氯乙烯(PVC)制备PVC/CdS纳米复合材料。在150℃的高温下,热处理PVC/CdS纳米复合材料2h,使PVC分子脱除HCl分子形成具有共轭结构的聚合物CPVC,制备CPVC/CdS纳米复合材料。采用X射线衍射仪、原子吸收光谱仪、傅立叶变换红外光谱仪、X射线光电子能谱、荧
本文通过盆栽模拟试验,研究了不同浓度的5种重金属Pb、Cd、Cu、Zn、Hg分别对油菜的单一作用,不同浓度的重金属Cu、Zn对油菜的复合作用,以及高低浓度下Se对重金属Cu污染油菜的