基于值函数估计的强化学习算法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:qqtigert123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,强化学习得到了机器学习研究人员的广泛关注。基于值表的强化学习算法在小规模状态空间的强化学习问题上,不仅得到了优异的实验效果验证,而且获得了完美的收敛性证明。然而,在实际应用中,强化学习算法通常面临大规模或者连续的状态空间,甚至是连续的动作空间(如自动驾驶的转向控制问题)。这使得基于值表的强化学习算法无法存储值表,并且无法遍历整个状态和动作空间。即强化学习算法遭遇了“维度灾难”问题的挑战。通常的解决方法是通过将经典的强化学习算法与函数估计相结合,以增强值函数对状态空间和动作空间的抽象和泛化能力。从函数估计角度,本文的主要工作和取得的创新如下:(1)简要介绍了强化学习的基本模型,综述了基于线性值函数估计的强化学习算法以及基于核方法的强化学习算法。(2)基于线性函数估计的强化学习试图求解一个最小二乘解,其预测误差受界于最优值函数与最优值函数投影后的残差,其中投影函数为Ⅱ=Φ(ΦΤDΦ)-1ΦΤD。可以看出,投影函数与特征函数有密切的关系,也直接影响到预测误差界。对于实际问题,受限于线性值函数的表达能力,当专家知识不足或者特征Φ的定义不够好时,该误差界会变得很大。为了解决该问题,本文提出了基于分段线性基的时间差分学习(Temporal Difference learning with Piecewise Linear Value Function:PLVF-TD)以更进一步的减小误差界。PLVF-TD学习框架有两个过程:对于不同维度的问题建立分段线性基;以及用复杂度为O(n)的时间差分学习算法来学习值函数的参数。经分析,误差界随着分段线性基个数的增加而减小。当分段线性基个数趋向于无穷时,误差界趋向于0。实验结果验证了PLVF-TD算法的有效性。(3)与基于线性函数估计的强化学习不同,根据表达定理,基于核方法的强化学习具备非常强大的表达能力。然而面对现实的强化学习问题,由于精度和复杂度两方面的问题,传统的基于核方法的强化学习算法不能满足在线学习的要求。针对该问题,本文提出了基于核方法的在线选择时间差分学习(Online Selective Kernel-based Temporal Difference:OSKTD)。OSKTD有两个在线过程:在线稀疏化和值函数的参数更新。在线稀疏化中,我们根据选择性集成学习,提出了基于核距离的在线稀疏化方法,其算法复杂度为O(n),比其它稀疏化方法的复杂度都低。在函数的参数更新中,我们根据局部有效性原理,提出了基于核方法的选择性值函数,并根据经典的时间差分学习结合梯度下降方法迭代学习值函数的参数。实验结果验证了OSKTD算法的有效性。(4)现实世界的问题通常是连续的状态空间、连续的动作空间并存的,为了精确控制,连续动作空间问题成为了一个新的研究热点。为了解决该问题,本文结合了Actor-Critic方法在处理连续动作空间的优点以及核方法在处理连续状态空间的优势,提出了基于核方法的连续动作Actor Critic学习算法(Kernel-based Continuous-action Actor Critic Learning:KCACL)。其中,Actor根据奖赏不作为原则更新动作执行的概率,Critic根据OSKTD学习算法更新状态值函数。实验结果验证了KCACL学习算法在求解连续动作空间强化学习问题上的有效性。
其他文献
随着信息技术的发展和网络的普及,电子商务取得了长足的进步,但是在电子商务的发展中,还存在着多种风险,对电子商务的发展起到了一定的束缚作用。本文笔者以电子商务的信用风
注射用芪红脉通为冻干粉针剂,由黄芪、红花两位药材提取精制所得,临床用于治疗气虚血瘀证引起的冠心病心绞痛,目前尚处于临床研究阶段。该品种临床前注册制备工艺相对成熟,但
在测量过程中,示波器必须记录的时间数量在不断上升,如时钟周期、码型位数或单位时间间隔,缺乏足够记录长度的示波器可能不能精确、高效地提供测量结果,甚至根本不能提供测量
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
一氧化氮(NO)是体内一种活性分子,在颅脑损伤中对脑血管及神经细胞有重要作用,我们对近期住院的64例急性颅脑损伤病人进行NO及一氧化氮合酶(NOS)测定,现将结果报告如下.对象
音视频编解码技术作为信息存储与传播过程中的关键组成部分,正在向着多制式,低功耗,低成本的方向发展;其中的关键模块设计是影响整个系统性能的关键因素。因此对音视频编解码
随着《古生物化石保护条例》即将施行,我国古生物化石保护工作真正走上法制化轨道。11月24日,国务院法制办和国土资源部召开宣传贯彻《古生物化石保护条例》(以下简称《条例》)新
物流金融是物流业和金融业的一个交叉学科,是物流与金融相结合的新产品,它整合了物流领域的物流、资金流和信息流,物流金融业务提高了第三方物流企业的竞争力,是当前物流企业竞争
花卉产业是21世纪世界上最有发展潜力的十大产业之一,花卉产业是世界各国农业中唯一不受农产品配额限制的产业。近二十年来,随着经济全球化的不断推进,花卉产业以前所未有的速度
如何在新的历史起点上走科学跨越之路,突破传统发展模式和路径,实现大跨度、超常规、高水平和创新型的发展,是需要我们认真思考的问题,后危机时代实现又好又快的发展,必须实现经济