基于核函数逼近的时间差分算法研究

来源 :苏州大学 | 被引量 : 6次 | 上传用户：jack88698

【摘要】

：

强化学习是机器学习的重要方法之一。强化学习在不断地与环境的交互时获取评价反馈信号,探索最优化策略。目前强化学习正逐步地运用到作业调度、路径规划、在线学习与控制、

【作者】

：

孙慈嘉

【出处】

：

苏州大学

【发表日期】

：

2017年01期

【关键词】

：

强化学习核函数时间差分样本近似稀疏化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是机器学习的重要方法之一。强化学习在不断地与环境的交互时获取评价反馈信号,探索最优化策略。目前强化学习正逐步地运用到作业调度、路径规划、在线学习与控制、游戏等实际领域。但现阶段运用强化学习去解决实际的大规模或者连续空间任务仍旧面临着一些困难:(1)探索和利用的平衡问题;(2)“维数灾”问题;(3)时间信度分配等问题。时间差分算法是有效解决时间信度分配问题的方法。解决大规模或者连续空间的强化学习任务的常见方法是函数逼近。核函数逼近作为一种经典的非参函数逼近,相较于带参函数逼近具有更好的泛化性能,但是计算量会随样本增加而增加。本文以基于核函数逼近的时间差分算法为背景,探讨解决基于核函数的强化学习算法性能问题,主要研究工作如下:(1)基于近似样本的核函数最小二乘时间差分算法的研究。为了解决大规模或者连续空间任务中的探索和利用平衡及“维数灾”问题,以基于核函数逼近的最小二乘时间差分算法为背景展开研究,前期采用基于最大化方差标准的数据子集样本近似方法处理样本,起到降低样本冗余度,提高逼近效率的目的。实验结果验证了近似后算法收敛效果的提升。(2)基于优先级扫描的稀疏化核函数时间差分算法的研究。针对数据子集近似方法近似后无法对变化剧烈的大规模数据进行全面表征的情况进行改进。对于基于核函数逼近的最小二乘时间差分算法,前期采用基于ALD的稀疏化方法对样本进行稀疏化处理,降低样本冗余度。运用Sherman-Morrison数学运算公式优化算法,降低计算复杂度。此外还引入优先级扫描思想,增加有用样本的利用程度。实验表明本研究所做的改进能对加快收敛速度并提高收敛精度起到一定的作用。(3)基于样本分布特征判别的核函数选择研究。利用函数逼近的方法解决大规模或者连续空间强化学习任务,要想避免“维数灾”问题,除样本近似或者稀疏化等降低样本冗余度的方法以外,还可以选择适合对样本进行全面特征表征的核函数。以最常见的两种核函数:高斯径向基和多项式核函数为例,研究如何基于样本分布特征,选择适合逼近的核函数。利用选择后的核函数泛化表示最小二乘时间差分算法,实现高效逼近,提升算法收敛效果,避免陷入局部最优。实验验证了基于样本分布特征判别的核函数时间差分算法收敛性能更好。

其他文献

杂多酸催化合成癸二酸二丁酯

用钨锗杂多酸作催化剂,将癸二酸与丁醇直接酯化合成癸二酸二丁酯。考察了催化剂量,酯化时间、醇酸比、带水剂量对酯化率的影响,得出合成该酯的较适宜条件。更多还原

期刊

癸二酸二丁酯杂多酸催化合成

工商许可改革与监管方式创新

随着社会主义市场经济的深入发展,中国政府正在加快推进改革开放的进程。与此同时,依法治国、依法行政的理念开始深入人心。《行政许可法》的制定与实施,拉开了国家行政改革

学位

工商许可改革监管方式创新

顾客满意模型及顾客满意管理研究

今天,企业的市场环境不断发生变化,市场国际化程度不断提高,市场竞争同趋复杂和激烈。这种严峻的形势不仅给企业的生存和发展带来了机遇和挑战,也对企业的经营思想、管理哲学

学位

顾客结构顾客满意管理(CSM)顾客满意模型顾客满意管理系统CS三维结构

对托马斯·哈代作品中人物“苔丝”的跨性别分析

托马斯·哈代是英国文学史上杰出的小说家和诗人。他在维多利亚时期创作了大量具有地方色彩的小说,赢得了国际声誉。《德伯家的苔丝》是他最受欢迎的作品之一,因栩栩如生地塑

学位

跨性别分析叙事视角叙事声音情节安排

失业治理与政府作为

中国是世界上人口最多的国家,从发展的角度看,我国也是一个劳动力资源无限供给的国家。自中华人民共和国建立以来,秉承马克思主义的失业理论,中国在对失业问题的治理过程中,

学位

失业治理政府作为

上海浦东新区城市住宅空间结构研究

浦东新区是上个世纪90年代中国改革开放的前沿阵地，也是21世纪中国城市化快速发展的地区之一。浦东新区在14年的开放与发展中，城市空间结构发生了很大的变化，其中住宅空间更是出

学位

住宅空间结构浦东新区

天青石还原制取粗制硫化锶

天青石是制取各种锶化合物的主要原料,难溶于水,熔点为1605℃。我国天青石分布范围较广,总储藏量却不大,主要产地有四川、江苏、内蒙、青海等地。其质量也因产地和矿点的不同

期刊

硫化锶锶化合物粗制配煤分布范围矿石品位还原性气氛复分解法碳酸银高温炉

重庆市居民营养及其相关疾病与合理营养对策的研究

目的:通过营养调查、健康检查和实验室检测,采用统计学处理对重庆市不同收入人群的食物消费量、营养素摄入水平、膳食结构现状和营养相关疾病状况及变化趋势进行分析,比较各

学位

营养膳食模式营养相关疾病合理营养

论我国宪法修改制度的完善

宪法修改制度在新中国成立以来的五十多年宪政历程中,一直扮演着举足轻重的角色。宪法的修改有效地弥合了社会发展的客观要求与国家重大制度安排之间的矛盾,发挥了非常积极的

学位

宪法修改指导思想程序宪政

发酵醪液中2—酮基—L—古龙酸转化率的测定

维生素Ｃ生产中，其中间产品２－酮基－Ｌ－古龙酸的含量测定时，一般所用加热时间为２０－４０ｍｉｎ。转化率采用６３．０８％，测定结果误差大，易对生产控制造成误导。对２－酮对－Ｌ－古龙酸转化成ＶＣ的转化率及加热时间进行了重新试验

期刊

维生素C酮基古龙酸发酵醪液转化率

基于核函数逼近的时间差分算法研究

与本文相关的学术论文