基函数自适应的强化学习的神经网络实现的研究

来源 :北京化工大学 | 被引量 : 1次 | 上传用户:lisky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是机器学习研究中一个重要的方向,是智能体通过与环境交互来学习如何行为的方法。强化学习过程是一个以寻找最优策略为最终目标的过程。策略评价是对策略好坏的评定,是强化学习重要的研究内容之一。一般策略评价算法是基于值函数进行的。值函数通常是通过线性参数化的值函数逼近器估计的。以往的函数逼近方法仅仅通过调节网络权值来改进近似精度,而没有考虑网络中基函数的参数。事实上,值函数逼近器的基函数对算法的性能也有很大的影响。一般来说,基函数中的中心点可以根据所要解决的问题确定,而基函数的宽度则较难选择,经常要经过多次实验,通过经验设定。本研究利用神经网络结构来实现强化学习算法,使网络中基函数的宽度可以自适应选取,论文的主要研究内容包括:1、提出了一种基函数自适应的带有梯度修正作用的强化学习网络算法。在本算法中,值函数逼近器中的基函数的参数(主要是指基函数的宽度)是自动调节直到最优的。其中时域差分误差和值函数由函数逼近器和带有梯度修正作用的递推最小二乘时域差分算法进行估计。同时,时域差分误差反传来更新值函数逼近器的参数,也就是网络权值和基函数宽度。这样就可以通过一个自适应的方法,使算法在学习的过程中逐渐达到最优的性能。实验证明,该方法无论在策略评价还是策略迭代方面都有较好的性能。在策略评价时,本算法可以较精确地对值函数进行近似。在策略迭代时,也就是解决学习控制问题时,本算法相比于传统的算法可更快更稳定地找到最优策略。2、提出一种基函数自适应的增量式的强化学习网络算法,进一步说明本课题提出的网络结构实现强化学习的可行性。本算法利用神经网络的结构来对值函数和时域差分误差进行估计,而时域差分误差又反传到网络的基函数中调节宽度,同时更新网络权值。其中时域差分误差和值函数由函数逼近器和增量式最小二乘时域差分算法进行估计。这样,通过依次调节网络的参数,逐步优化网络,直到近似的性能达到最优。这时,利用最优的网络来进行策略评价和策略迭代。仿真实验证明,该算法在策略评价和策略迭代两方面都有较好的性能,同时每步的计算时间大大减少。
其他文献
装配公差规范设计是研究在确保产品功能需求和装配约束的前提下,如何合理地选择基准、指定几何要素、确定公差类型及选用公差原则,主要包括对公差类型、公差值和公差原则等指标的设计。针对几何产品公差规范设计参数的不确定性及难以智能化的问题,本文借助本体在概念层次、语义表达、知识推理、知识共享及知识重用等方面的优势,将本体引入到装配公差规范的设计中,为装配公差规范的设计提供了一种智能化的方法。本文主要内容如下
原发型家族性大脑钙化(Primary Familial Brian Calcification,PFBC)是一种家族性遗传的常染色体神经变性病,以两侧对称性基底节钙化为最常见特征,故又称之为特发性基底节钙
船闸是地区工农业持续发展的水运基础设施,它既可以保障航道畅通,提升区域经济,又可以对供水发电、防洪排涝、农业灌溉、防止水土流失等提供贡献,对生态环境以及社会经济有着
埃塞俄比亚芥(Brassicacarinata)是十字花科芸薹属植物,但在自然条件下与食用甘蓝型油菜很难杂交,可望培育成为新的工业用油料作物用于污染土壤修复。在非超积累植物中超量表
环境污染问题早已引起全球的广泛关注.如何使用廉价低耗的方法高效去除水污染物的同时,降低对环境的不利影响,成为人类社会可持续发展的重要问题。先进氧化过程因其可以产生
炎症性肠道疾病(Inflammatory bowel disease,IBD)是一种与粘膜免疫系统和肠道生态系统失调有关的慢性易复发和缓解疾病,其在中国的发病率急剧增加,显示出低龄化趋势。目前IBD的病因及发病机制尚不明确,近年研究发现肠道菌群失衡及代谢紊乱在IBD发生发展过程中起重要作用。母乳低聚糖(Human milk oligosaccharides,HMO)已被证实可通过促进有益菌定殖、抵
目的本研究通过用蒙医温针疗法治疗腰间盘突出引起的坐骨神经痛患者,评价蒙医温针治疗腰间盘突出引起的坐骨神经痛的临床疗效,为蒙医温针疗法在临床中广泛应用提供科学依据。方法在2018.12月到2019.10月期间,从内蒙古肿瘤医院蒙医科门诊患者中,选取符合坐骨神经痛的诊断标准和纳入标准的患者60名,按就诊顺序分为实验组和对照组,每组30例。实验组选髋穴,腘窝穴和腰部痛点(即CT/MRI提示腰间盘突出部位
浮式结构作为港口和海洋工程建设中的重要结构形式,一直受到人们的关注。其中,载液浮体是一类应用广泛的海上浮式结构,例如浮式生产储卸油装置(FPSO),LNG及LPG运输船等。近些
高等规聚苯乙烯具有高熔点、高玻璃化转变温度、高弹性模量、化学耐受性较强等优点,近年来受到广泛关注。但是由于高等规聚苯乙烯材料不含有极性基团,因此聚合物与其它材料的
随着人类向海洋进军进程的加速,很多大型的、多功能的离岸海上建筑物应运而生,其中安置在海床上的大尺度群墩结构作为结构基础,常应用在跨海大桥、海洋平台等重要的海洋工程