一种二阶TD Error快速Q（λ）算法

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户：aa87850011

【摘要】

：

Q（λ）学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法．针对经典的Q（λ）学习算法执行效率低、收敛速度慢的问题，从TDError的角度出发，给出n阶TDEr

【作者】

：

傅启明刘全孙洪坤高龙李瑾王辉

【机构】

：

苏州大学计算机科学与技术学院,吉林大学符号计算与知识工程教育部重点实验室

【出处】

：

模式识别与人工智能

【发表日期】

：

2013年3期

【关键词】

：

强化学习马尔科夫决策过程二阶TD ERROR 资格迹 Q(λ)算法 Reinforcement Learning Markov Decision Proc

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Q（λ）学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法．针对经典的Q（λ）学习算法执行效率低、收敛速度慢的问题，从TDError的角度出发，给出n阶TDError的概念，并将n阶TDError用于经典的Q（λ）学习算法，提出一种二阶TDError快速Q（λ）学习算法——s0E—FQ（λ）算法．该算法利用二阶TDError修正Q值函数，并通过资格迹将TDError传播至整个状态动作空间，加快算法的收敛速度．在此基础之上，分析算法的收敛性及收敛效率，在仅考虑一步更新的情况下，算

其他文献

一种鲁棒的图像局部仿射不变特征提取方法

提出一种鲁棒的图像局部仿射不变特征提取方法.该方法首先对图像进行M进制小波变换,根据M进制小波变换系数的能量性质来检测图像特征点.然后以检测到的稳定特征点为中心,根据特征点周围的局部图像信息,以矩的形式构造仿射不变特征描述子.实验结果证明该方法对图像的旋转变化、尺度变化、视点变化、平移等所有仿射变换均具有较好的不变性.

期刊

仿射不变图像特征小波Affine Invariant Image Feature Wavelet

抗噪的移位Hamming距离差虹膜匹配方法

对传统的Hamming距离匹配方法进行研究,提出抗噪的移位Hamming距离差(OHDD)虹膜匹配方法.首先构造单频两方向的奇对称Gabor滤波器组来提取虹膜边缘特征,然后用过零检测的方法进行虹膜编码,最后使用OHDD参数进行匹配.在6个虹膜数据库中,对传统匹配方法与文中的OHDD匹配方法进行对比实验.实验结果表明,在所有虹膜数据库中,OHDD匹配方法的等错率和正确识别率优于传统匹配方法,并且具有

期刊

虹膜识别虹膜匹配移位Hamming距离差(OHDD)抗噪Iris Recognition Iris Matching Offset Hamming

教育现代化：一种价值选择

1983年，邓小平同志关于“教育要面向现代化，面向世界，面向未来”的指示，首次提出了中国教育现代化的任务。1993年初颁发的《中国教育改革和发展纲要》，将“实现教育的现代化”纳入

期刊

教育现代化中国教育面向世界面向未来改革和发展《人民日报》教育发展社会主义现代化建设邓小平同志价值选择

基于随机优化的大规模噪声数据集快速学习方法

针对包含噪声与干扰数据的大规模机器学习问题，采用非凸Ramp损失函数抑制噪声和干扰数据的影响，提出一种基于随机优化的非凸线性支持向量机快速学习方法，有效改进训练速度和预测

期刊

大规模机器学习支持向量机Ramp损失随机梯度下降Large-Scale Machine Learning Support Vector Machine

中学生品德考核评定的研究和实践

【正】近年来,随着对学校德育工作的重视及德育大纲的实施,有关学生品德考核评定的研究和实践取得了很大进展。为了克服应试教育的分数第一,体现德育在升学和招工等方面的导

期刊

考核评定行为规范中学生品德应试教育班主任考评体系德育大纲导向作用量化考核正确处理

贯彻《决议》精神,提高刊物质量——中国教育学会教育理论刊物专业委员会年会综述

贯彻《决议》精神，提高刊物质量——中国教育学会教育理论刊物专业委员会年会综述广西师范大学陈时见韦义平中国教育学会教育理论刊物专业委员会１９９６年年会于１９９６年１１月１２日至１５日在广西桂林

期刊

教育理论刊物中国教育学会刊物质量《决议》精神文明建设专业委员会编辑工作广西师范大学教育实践教育改革和发展

腕舟骨骨折的手术治疗进展

目的对近年来手术治疗腕舟骨骨折的手术方法研究进行综述。方法结合参考文献资料和笔者的实践经验进行综述。结果腕舟骨骨折手术适应征较以往广泛，手术治疗对骨折愈合率的提高

期刊

骨折舟骨手术综述

基于全局优化策略的场景分类算法

提出一种基于全局优化策略的场景分类算法.该算法基于整幅图像提取全局场景特征——空间包络特征.从图像块中提取视觉单词,且定义隐变量表示该视觉单词语义,然后引入隐状态结构图描述整幅图像的视觉单词上下文;在场景分类策略上,构造由相容函数组成的目标函数,其中相容函数度量全局场景特征、隐变量与场景类别标记的相容度,通过求解目标函数的全局最优解推断图像的场景类别标记.在标准场景图像库上的对比实验表明该算法优于

期刊

图像解析场景分类函数优化视觉单词Image Analysis Scene Classification Function Optimization

小儿心肺复苏特点

从心肺复苏的角度，小儿年龄段的划分与一般儿科划分稍有不同，即：1个月以内为新生儿，1岁以内为婴儿，1～8岁为小儿。8岁以上儿童心肺复苏程序和方法基本与成人相同。

期刊

心肺复苏小儿儿科年龄段新生儿婴儿儿童成人角度方法

贲门失弛缓症内镜治疗进展

贲门失弛缓症是指下食管括约肌(Loweresophageal sphincter，LES)松弛障碍引起的贲门痉挛，其病因身心健康尚未完全明了。多认为属于神经原性疾病，其运动障碍是食管胆碱能神经支配

期刊

贲门失弛缓症治疗进展内镜下食管括约肌食管测压检查X线钡餐检查神经节细胞肌间神经丛贲门痉挛身心健康神经支配运动障碍细胞变性迷走神经吞咽

一种二阶TD Error快速Q（λ）算法

与本文相关的学术论文