基于模糊近似的强化学习方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:lidenglu1114
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种用于求解可以建模为马尔科夫决策过程问题的机器学习方法,其通过Agent与环境交互以获得最大累计奖赏的方式进行学习。当前强化学习面临的主要挑战和机遇是如何求解大规模状态或动作空间的问题。本文将模糊推理作为近似方法用于强化学习算法中,针对当前已有的基于模糊推理的强化学习算法的不足,提出几种改进的基于模糊推理和基函数优化的值函数近似算法:(1)针对传统的基于查询表或函数近似的Q值迭代算法在处理连续空间问题时收敛速度慢,且不能求解连续行为策略的问题,提出一种带有资格迹的基于双层模糊推理的时间差分算法(DFR-Sarsa(λ)),并从理论上分析其收敛性。算法的第一层推理使用模糊状态集合以计算连续动作,第二层推理使用模糊动作集合以计算Q值分量,最后结合两层推理计算连续动作空间中的Q值函数。(2)针对传统的基于模糊推理的强化学习算法存在收敛性能不足和对噪音干扰缺乏鲁棒性的问题,提出一种基于区间型二型模糊状态划分的Sarsa(λ)算法(IT2FI-Sarsa(λ)),并从理论上分析其收敛性。模糊规则的前件部分使用新颖的椭圆形二型模糊隶属度函数来划分连续状态空间,且该隶属度函数可以使降型存在闭合解。通过二型模糊推理获得Q值函数后,使用梯度下降方法更新规则的后件参数。实验表明,IT2FI-Sarsa(λ)算法具有较好的收敛性能,且对噪声干扰有鲁棒性。(3)针对当前强化学习方法在使用线性函数近似时,由于根据不准确先验知识设定基函数而造成的泛化性能不高的问题,提出一种带有自适应基函数的模糊值迭代算法(ABF-QI),并从理论上分析其收敛性。算法的基函数采用“自顶向下”的自适应更新方式,首先根据初始设定的基函数计算Q值函数,其次根据性能评价准则选择需要细化的基函数,最后采用分层更新的方式调整基函数的个数和形状。
其他文献
医学图像三维重建技术的目标是对人体器官和组织进行立体式可视化分析。近年来已经成为医学图像处理与分析领域的研究热点。这种技术对于临床医生观察人体内部组织和病灶提供
强化学习是一种试错学习,可解决无模型问题,在没有任何先验知识的情况下,Agent通过与环境不断交互实现基于自身经验的学习。本文研究的是连续状态动作空间的问题,传统的解决方法
大数据时代的来临,使得数据量、数据复杂度和数据的处理方式发生了很大的变化,也给如何高效地、安全地从海量数据中检索到用户所关心的信息提出了挑战。全文检索技术的出现是
随着计算机科学技术的不断发展,尤其是视频编解码技术的不断进步,立体视频的应用场景越来越广泛,加上人们对3D视频也越来越感兴趣,立体视频的编解技术得到空前发展。但是现阶
移动自组织网络(Mobile Ad Hoc Network, MANET)是由在一定范围内的一些无线移动设备(也称为节点)的集合组成的复杂的分布式网络系统,并且不需要依靠任何固定的基础设施,就可
无线传感器网络(WSN)是由大量无线传感器节点构成的、自组织的网络系统。它的特点有大规模部署、低功耗、动态自组织等,近年来在各个领域都获得了广泛的应用。在无线传感器网
云迁移是指将应用程序从企业内部数据中心迁移到云环境的整个过程,该过程涉及到选择云服务,确定迁移方式,重构应用程序,配置云资源等一系列分析、设计、重建的活动。  云计
随着信息时代的发展,计算机﹑科技﹑手机﹑互联网﹑社交网络等关键名词已成为人们日常生活中接触度较广的几个信息时代相关的专有代名词。与此同时,这些信息时代的产物,它们所带来的
数字水印技术是网络环境下知识产权保护和认证的手段之一,是目前信息安全技术领域的一个重要研究方向,本文在对已有的基于小波变换的数字水印技术分析的基础上,利用轮廓变换不仅
随着微机电系统、片上系统、通信技术和低能耗嵌入式技术的快速发展,无线传感器网络(WSN)应运而生,已经成为计算机科学与技术的一个新兴领域。它有十分广阔的使用前景,目前已经应