基于高斯过程的强化学习算法的研究及实现

来源 :武汉理工大学 | 被引量 : 2次 | 上传用户:wuqianlan987654
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习(Reinforcement Learning)是一种重要的机器学习方法,在人工智能领域有着举足轻重的地位。强化学习算法又分为有模型的强化学习与无模型的强化学习,其中传统的基于模型的强化学习虽然改善了典型的无模型的强化学习算法的学习速度慢以及学习精度不高等问题,但这种算法的实现通常是直接给系统一个确定的外界环境模型或需要较多的外界环境信息等先验知识,从而限制了强化学习的发展与应用。针对以往基于模型的强化学习算法的这些限制,本文将高斯过程模型应用到强化学习算法中,提出运用动态匹配与线性化高斯后验均值函数相结合的近似推理算法对后继状态进行预测以及对控制策略进行粗略推断,从而有效改善了有模型强化学习需要过多的外界环境因素等难点问题。本文具体的研究工作如下:首先,运用高斯过程回归模型对强化学习中外界环境建模。对以往的强化学习算法进行分析探讨,分别给出传统无模型与有模型的强化学习算法的不足之处,然后对监督学习中高斯过程回归(Gaussian process for regression)模型进行详细分析,了解其优良性质,并利用高斯过程回归模型对强化学习中的外界环境进行建模,改善以往有模型的强化学习算法几乎不能承受模型误差的缺陷,并为后文对强化学习中期望成本的求解打下基础。其次,运用期望成本获得最优策略,从而达到学习目标。在外界高斯环境模型的条件下,提出动态匹配与线性化高斯后验均值函数相结合的近似推理方法对后继状态分布的均值与方差进行预测,从而得到期望成本,再对期望成本进行基于梯度的策略搜索,然后通过共轭梯度法或者拟牛顿法进行策略参数的优化,最终将学习到的控制策略运用到强化学习系统中,再由系统反馈以及最终的策略回报来更新外界环境模型,重复以上步骤直到学习到最优策略,最终达到学习目标。采用动态匹配与线性化高斯后验均值函数相结合的推理方法对后继状态进行预测,成功的改善了强化学习中学习速度慢等问题。最后,通过三级倒立摆系统对改进后算法的学习快速性以及其它关键性质进行了验证,并做出相关分析。
其他文献
“双功能、双基础、双报告”是政府会计核算体系的重要内容,进行“平行记账”和编制“本年盈余与预算结余差异调节表”,是解读政府会计制度改革的关键内容。本文比较了本年盈
<正>合作能力是在与人交往中逐渐形成的一种与周围环境、与社会相互适应、相互依存,相互促进.共同发展的本领。在新的形势下,作为职教工作者,在大力培养中职生参与市场竞争能
目的探究左西孟旦在顽固性心力衰竭中的临床治疗效果及护理体会。方法本文选取于2016年3月份至2018年3月份本院收治的顽固性心力衰竭患者共112例,采用随机分组法分成对照组和
徐复观是中国现代新儒家的重要代表。他从关注现实政治、把握政治与人生之关系出发,探讨了民主政治问题,进而把儒家政治思想与民主政治相结合,力图发掘中国传统文化中的合理
《赢在中国》是一档寻找创业领袖的节目,也是一个让具备商业才能的英才横空出世的平台。《马云点评创业》便是这样一本汇聚现场精彩点评实录的书。书中,评委马云,一个谙熟创
期刊
<正>汽车点火示波器能传达更多的关于各种车载传感器信号的变化情况的信息,本文就各类示波器在实际维修当中的应用作一简单明了的论述。是一种适合大众的故障判别经验,操作简
采用低温强碱法制备氧化锆超细粉,分析了XRD光谱图,通过650oC热处理形成四方或单斜晶二氧化锆,其颗粒尺寸约为22.1nm。研究了纳米二氧化锆的气敏特性及其在氧传感器方面的应
业绩评价是会计管理系统的一个重要组成部分,它是通过对会计信息的分析利用,对企业内部各部门乃至整个企业的经营成果做出科学、合理的评价。由于企业规模差异导致企业会计管
<正>2019年1月15日,重庆车辆检测研究院有限公司(以下简称重庆车检院)、中国联合网络通信有限公司重庆市分公司(以下简称联通重庆分公司)与华为技术有限公司(以下简称华为公
小学低年级的识字教学是学生学习语文以及其他科目知识的基础,同时也是低年级学生学习的重点内容。但是由于低年级学生的年龄关系,加上识字学习相对于故事类文本学习的枯燥性