强化学习中值函数逼近方法的研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:liongliong445
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一类无需先验知识的机器学习方法,以Agent与环境不断的交互为主要特征,以寻找能带来最大期望累积折扣奖赏的策略为目标。强化学习中环境可能具有大状态空间甚至连续状态空间,Agent所能执行的动作可能为离散的或连续的,这必然带来一定的复杂性。本文着眼于大规模空间或连续空间可能带来的问题,以值函数逼近为出发点,针对对当前值函数逼近方法中存在的若干问题提出若干值函数逼近模型及其相应的强化学习算法。主要研究内容包括以下三部分:(1)将高斯过程时间差分学习与SARSA算法相结合时易产生初始性能差、学习速度慢甚至找不到最优策略等问题。针对此,利用协方差函数建立一种新的值函数概率生成模型,再利用线性函数和高斯过程对值函数建模,最后利用贝叶斯推理估计值函数,得到基于高斯过程的快速SARSA算法。(2)针对难以将高斯过程时间差分学习与Q学习算法相结合的问题,提出用于值迭代的值函数概率生成模型,利用线性函数和高斯过程对值函数建模,再借助贝叶斯推理求解值函数参数的后验分布,得到基于高斯过程的Q学习算法。该算法可解决大规模状态空间问题,且同时具有贝叶斯估计方法和Q学习算法的优点。(3)针对连续动作空间可能带来的“维数灾”问题,以行动者评论家为基本结构,利用线性函数分别对状态值函数和策略建模,借助时间差分误差的sigmoid函数构造关于策略参数的均方误差,利用梯度下降和最小二乘方法最小化此均方误差,分别得到连续动作空间中的梯度下降行动者评论家算法和最小二乘行动者评论家算法。所提算法能有效避免连续动作空间带来的“维数灾”问题,且有较高的数据利用率。
其他文献
随着互联网技术和社交网络技术的飞速发展,用图交流已经成为当下最有效的沟通手段,因此利用机器模拟人脑对图像的理解和识别,具有广泛的社会应用价值。其中,相似图像的检索在图像
随着计算机互联网技术的高速发展,微博作为一种信息传播速度快、用户互动性强、信息实时性高的新型网络媒体很快得到人们的认可,成为人们了解时事信息、分享个人生活点滴重要平
学位
随着现代工业生产的迅速发展,人们的物质生活所需品日益丰富,生活质量极大地提高。与此同时,由于工业生产设备的大量投入使用,对灾难性事故危害的潜在风险的控制也成为了不容忽视的问题,人们对危害其生命、财产和环境等各类风险也越来越难于容忍。为了提高工业生产的安全性,通常采用安全仪表系统(Safety Instrumented System, SIS)在出现安全事故之前发挥其安全功能,避免安全事故的发生,或
当前,在互联网上传输的视频数据占据了网络流量的大约70%。毫不夸张的说,视频数据是大数据时代最大的数据。如何让计算机更好的看清与理解眼前的世界不是一个简单的问题,近年来也
基于监控场景下的行人重识别问题是当前计算机视觉领域研究的热点,主要任务是指行人在穿梭于监控场景中摄像机网络的视频或图片的匹配,特别是对于非重叠视域的多摄像机网络结构
随着信息技术的高速发展,传统医疗正在向更加电子化和数字化的方向发展。电子医疗档案是标准化的居民基本健康相关信息。它不但能为医疗工作者提供参考信息,还能和其他信息系
近几年,随着国内互联网技术的迅猛发展,几大电商如淘宝、京东等,正悄然改变着大众的生活方式;同时,随着微博等社交网站的崛起,国内互联网用户越来越多的在网络上发布自己的主观观点
计算机技术的快速发展使得有限元分析在机械设计与研宄中得到了广泛的应用。在机床设计与制造领域,运用计算机动力学仿真与CAE技术可以在机床开发试制之前对其零部件的工作情
云计算给社会带来了许多变化,社会生活被不断地数字化。如何处理海量的数据成为了一个令人关注的话题。Hadoop是一个分布式计算软件框架,其包含分布式存储和MapReduce计算,能