结构化状态空间中的递阶再励学习方法

来源 :控制与决策 | 被引量 : 0次 | 上传用户：sunhoe

【摘要】

：

在状态空间满足结构化条件的前提下,通过状态空间的维度划分直接将复杂的原始MDP问题递阶分解为一组简单的MDP或SMDP子问题,并在线对递阶结构进行完善.递阶结构中嵌入不同的

【作者】

：

孟江华朱纪洪孙增圻

【机构】

：

清华大学计算机科学与技术系

【出处】

：

控制与决策

【发表日期】

：

2007年2期

【关键词】

：

再励学习(RL) 递阶再励学习结构化状态空间 Reinforcement learning（RL） Hierarchical RL Structural st

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在状态空间满足结构化条件的前提下,通过状态空间的维度划分直接将复杂的原始MDP问题递阶分解为一组简单的MDP或SMDP子问题,并在线对递阶结构进行完善.递阶结构中嵌入不同的再励学习方法可以形成不同的递阶学习.所提出的方法在具备递阶再励学习速度快、易于共享等优点的同时,降低了对先验知识的依赖程度,缓解了学习初期回报值稀少的问题.

其他文献

同时镇定及鲁棒控制器存在条件

在保证闭环系统稳定的前提下，将被控对象看成控制器，控制器看成被控对象。从集合的角度研究了镇定区间对象族的控制器存在条件和设计方法，利用值集的概念和Youla参数化结果给出

期刊

区间对象族同时镇定值集不等式集Plant family Simultaneous stabilization Set value Set of i

基于状态反馈的一类非线性系统动态输出反馈镇定

针对一类具有线性不可测量状态的非线性系统,基于状态反馈稳定控制器,利用不变流形和滑模变结构控制技术设计了动态输出反馈镇定控制器.这类控制器的结构类似于系统的状态反馈稳定控制器,在较简单的假定条件下,能够保证被控系统的状态得到渐近镇定.仿真算例表明该动态输出反馈控制器具有较强的镇定能力.

期刊

非线性系统不可测量状态状态反馈动态输出反馈Nonlinear systemUnmeasured stateState feedbackDynami

珍珠粉治疗会阴侧切口感染裂开47例观察

目的：探讨珍珠粉局部用药治疗会阴侧切口感染裂开的临床疗效。方法：选取会阴侧切口感染裂开的产妇47例，随机分为治疗组（n=25）和对照组（n=22）。治疗组采用珍珠粉外敷切口感染裂开处，每

期刊

会阴切口感染珍珠粉临床观察

高校网络舆情研究综述

高校网络舆情研究是一个新兴领域,尚处于起步阶段,但发展迅速.文章从研究肇始、实质性研究的开端、研究领域的拓展、评述及研究趋势等四个方面对高校网络舆情研究的现状与趋

期刊

高校网络舆情思想政治教育

二阶线性系统全维PI观测器的参数化设计

基于一类广义Sylvester矩阵方程的解．提出了二阶线性系统的全维PI观测器设计参数化方法．给出了该类观测器的增益矩阵和左特征向量矩阵的参数化表达式．该观测器设计的参数化方法

期刊

二阶线性系统比例积分观测器参数化自由度Second-order linear systems PI observers Parameterizati

流动注射-固相萃取-光度法测定环境水样中的Cr（Ⅵ）

用香烟过滤嘴制为材料自制了固相萃取柱,结合流动注射,建立了环境水样中Cr(Ⅵ)光度测定方法.对该方法进行优化,在Cr(Ⅵ)浓度0.1～4.0μg/L范围内具有较好的线性关系,1.0μg/L的Cr(Ⅵ)标样经11次测量,相对标准偏差为4.3%,方法检出限为0.02μg/L.对实际水样进行检测,加标回收率在94%～110%之间.

期刊

流动注射固相萃取光度法Cr(Ⅵ)flow injection solid phase extraction Cr（Ⅵ）

结构化状态空间中的递阶再励学习方法

其他学术论文