基于核函数逼近的时间差分算法研究

来源 :苏州大学 | 被引量 : 6次 | 上传用户:jack88698
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是机器学习的重要方法之一。强化学习在不断地与环境的交互时获取评价反馈信号,探索最优化策略。目前强化学习正逐步地运用到作业调度、路径规划、在线学习与控制、游戏等实际领域。但现阶段运用强化学习去解决实际的大规模或者连续空间任务仍旧面临着一些困难:(1)探索和利用的平衡问题;(2)“维数灾”问题;(3)时间信度分配等问题。时间差分算法是有效解决时间信度分配问题的方法。解决大规模或者连续空间的强化学习任务的常见方法是函数逼近。核函数逼近作为一种经典的非参函数逼近,相较于带参函数逼近具有更好的泛化性能,但是计算量会随样本增加而增加。本文以基于核函数逼近的时间差分算法为背景,探讨解决基于核函数的强化学习算法性能问题,主要研究工作如下:(1)基于近似样本的核函数最小二乘时间差分算法的研究。为了解决大规模或者连续空间任务中的探索和利用平衡及“维数灾”问题,以基于核函数逼近的最小二乘时间差分算法为背景展开研究,前期采用基于最大化方差标准的数据子集样本近似方法处理样本,起到降低样本冗余度,提高逼近效率的目的。实验结果验证了近似后算法收敛效果的提升。(2)基于优先级扫描的稀疏化核函数时间差分算法的研究。针对数据子集近似方法近似后无法对变化剧烈的大规模数据进行全面表征的情况进行改进。对于基于核函数逼近的最小二乘时间差分算法,前期采用基于ALD的稀疏化方法对样本进行稀疏化处理,降低样本冗余度。运用Sherman-Morrison数学运算公式优化算法,降低计算复杂度。此外还引入优先级扫描思想,增加有用样本的利用程度。实验表明本研究所做的改进能对加快收敛速度并提高收敛精度起到一定的作用。(3)基于样本分布特征判别的核函数选择研究。利用函数逼近的方法解决大规模或者连续空间强化学习任务,要想避免“维数灾”问题,除样本近似或者稀疏化等降低样本冗余度的方法以外,还可以选择适合对样本进行全面特征表征的核函数。以最常见的两种核函数:高斯径向基和多项式核函数为例,研究如何基于样本分布特征,选择适合逼近的核函数。利用选择后的核函数泛化表示最小二乘时间差分算法,实现高效逼近,提升算法收敛效果,避免陷入局部最优。实验验证了基于样本分布特征判别的核函数时间差分算法收敛性能更好。
其他文献
用钨锗杂多酸作催化剂,将癸二酸与丁醇直接酯化合成癸二酸二丁酯。考察了催化剂量,酯化时间、醇酸比、带水剂量对酯化率的影响,得出合成该酯的较适宜条件。更多还原
随着社会主义市场经济的深入发展,中国政府正在加快推进改革开放的进程。与此同时,依法治国、依法行政的理念开始深入人心。《行政许可法》的制定与实施,拉开了国家行政改革
今天,企业的市场环境不断发生变化,市场国际化程度不断提高,市场竞争同趋复杂和激烈。这种严峻的形势不仅给企业的生存和发展带来了机遇和挑战,也对企业的经营思想、管理哲学
托马斯·哈代是英国文学史上杰出的小说家和诗人。他在维多利亚时期创作了大量具有地方色彩的小说,赢得了国际声誉。《德伯家的苔丝》是他最受欢迎的作品之一,因栩栩如生地塑
中国是世界上人口最多的国家,从发展的角度看,我国也是一个劳动力资源无限供给的国家。自中华人民共和国建立以来,秉承马克思主义的失业理论,中国在对失业问题的治理过程中,
浦东新区是上个世纪90年代中国改革开放的前沿阵地,也是21世纪中国城市化快速发展的地区之一。浦东新区在14年的开放与发展中,城市空间结构发生了很大的变化,其中住宅空间更是出
天青石是制取各种锶化合物的主要原料,难溶于水,熔点为1605℃。我国天青石分布范围较广,总储藏量却不大,主要产地有四川、江苏、内蒙、青海等地。其质量也因产地和矿点的不同
目的:通过营养调查、健康检查和实验室检测,采用统计学处理对重庆市不同收入人群的食物消费量、营养素摄入水平、膳食结构现状和营养相关疾病状况及变化趋势进行分析,比较各
宪法修改制度在新中国成立以来的五十多年宪政历程中,一直扮演着举足轻重的角色。宪法的修改有效地弥合了社会发展的客观要求与国家重大制度安排之间的矛盾,发挥了非常积极的
维生素C生产中,其中间产品2-酮基-L-古龙酸的含量测定时,一般所用加热时间为20-40min。转化率采用63.08%,测定结果误差大,易对生产控制造成误导。对2-酮对-L-古龙酸转化成VC的转化率及加热时间进行了重新试验