连续空间增量最近邻时域差分学习

来源 :控制与决策 | 被引量 : 0次 | 上传用户：bailiyue

【摘要】

：

针对连续空间强化学习问题,提出一种基于局部加权学习的增量最近邻时域差分(TD)学习框架.通过增量方式在线选取部分已观测状态构建实例词典,采用新观测状态的范围最近邻实例

【作者】

：

张春元朱清新钟声

【机构】

：

电子科技大学计算机科学与工程学院,海南大学信息科学技术学院,

【出处】

：

控制与决策

【发表日期】

：

2014年12期

【关键词】

：

最近邻时域差分学习值函数逼近策略逼近局部加权学习增量词典稀疏化函数算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对连续空间强化学习问题,提出一种基于局部加权学习的增量最近邻时域差分(TD)学习框架.通过增量方式在线选取部分已观测状态构建实例词典,采用新观测状态的范围最近邻实例逼近其值函数与策略,并结合TD算法对词典中各实例的值函数和资格迹迭代更新.就框架各主要组成部分给出多种设计方案,并对其收敛性进行理论分析.对24种方案组合进行仿真验证的实验结果表明,SNDN组合具有较好的学习性能和计算效率. In order to solve the problem of continuous space reinforcement learning, an incremental Nearest Neighbor (TD) learning framework based on local weighted learning is proposed. An example dictionary is constructed by incremental selection of partially observed states, and the nearest neighbors The examples are approximated by their value functions and strategies, and combined with the TD algorithm iterative updating of the value function and qualification trajectory of each instance in the dictionary, a variety of design solutions are given to the major components of the framework and the convergence is analyzed theoretically. Experimental results show that the SNDN combination has good learning performance and computational efficiency.

其他文献

民间工艺创新创意研究——以浙江省松阳县为例

浙江松阳历史悠久、文化资源丰富、民间工艺保护较好,在“大众创业、万众创新”时代,这些凝结着松阳人民1800年来智慧与创造传统文化,其内在的资源利用价值进一步凸显出来。2

期刊

文化名县民间传统文化人文精神非物质形态文化旅游产品资源利用制作技艺物质文化遗产文化生态环境政府生态

基于空间关系的海上应急救援力量调度模型

近年来,随着各国之间海上贸易往来的不断加深,海上安全事故发生频率也逐年增加。海上险情由于突发性、危害大、救助难等原因,越来越受到重视。做好海上安全应急救援工作,不仅

学位

海上应急救援Voronoi图引力模型模糊层次分析法

新媒体的冲击下传统绘画该如何发展

近年来,随着新技术的快速变革,以互联网、宽频、手机媒体为代表的新媒体风生水起,发展势头迅猛,已经成为传统绘画不容忽视的一个重要的信息。上世纪90年代以来,新媒体的出现

期刊

新媒体时代通畅性价值核心新媒体艺术在线交流写实风格材料质感新媒体技术电子网络西方科技

基于延续性视角的传统村落保护与发展研究——以山西丁村为例

传统村落是我国乡土文化的精髓和民族文化的“活化石”。然而，我国的传统村落大多面临着民居建筑年久失修、非物质文化遗产失传、村落经济发展滞后、基础设施落后、村落旅游利

学位

传统村落延续性保护居民参与可持续性人居环境

基于S7-200 PLC的位置控制系统构建

采用PLC构成位置控制系统在机械加工行业具有较多应用,本文主要介绍一般PLC位置控制系统的构成,详细探讨S7-200 PLC位置控制向导的使用方法,并对相关子程序进行了说明。 The

期刊

位置控制系统S7-200 PLCPLC位置控制步进驱动交流伺服驱动PTO子程序包络向导

亚喀斯特地区景观特征与生态环境效应探讨研究——以贵州为例

贵州作为喀斯特发育的典型代表区，喀斯特的广泛分布及其独特的生态环境构成了贵州重要的省情要素特征，关于喀斯特生态环境问题的研究与探索一直是学术界关注的重点。本文以TM、

学位

亚喀斯特地区景观特征生态环境效应

人为干预下石漠化生态系统健康诊断与演变研究——以花江示范区为例

喀斯特石漠化是影响贵州山区甚至我国西南地区生态保护、建设与可持续发展的主要生态环境问题，喀斯特石漠化地区生态系统健康诊断以及对人为干预的响应研究是生态建设和石漠化

学位

喀斯特石漠化生态系统健康人为干预马尔科夫预测健康诊断综合治理

湖江流域快速城市化过程中的生态环境效应分析

近年来湘江流域城市化、工业化进程进入快速发展阶段。随着快速城市化的发展,人口向城市快速集聚,城市空间向乡村地区迅速扩展,工业生产排放大量的废水、废气、废渣,使湘江流

学位

城市化建设生态环境环境评价湘江流域

瞬间的永恒

用不同的视角去看待这个世界，给这个世界带来更多的可能性，我想，这是当代艺术存在的重要的意义之一。摄影对我来说是我在机缘巧合下捡起的一个工具，后来我把这个工具变成了瑞士军刀。这是一个跨界与融合的时代，一切形式都是为了更适合表达我们的观念而服务的，所以我并没有刻意地去拓展摄影的表现形式，而是在寻求一种更适合表达我对一些问题思考的可能性。　　《瞬间的永恒》这组作品是在夜晚开车行进的过程中用相机长时间曝光

期刊

瑞士军刀这个世界写实绘画新媒体艺术微喷卖油翁渐行渐远长时间曝光刚劲有力苏东

浅谈户外广告设计的创意

户外广告是指室外的公共场所向消费者传递信息的广告,如户外招贴广告、路牌广告,地铁广告等,注重实用性和时尚性。作为现代设计文化与科技应用的综合体,户外广告的媒介形式与

期刊

户外广告路牌广告地铁广告招贴广告科技应用商业广告艺术品味媒介形式企业形象渗透融合

连续空间增量最近邻时域差分学习

与本文相关的学术论文