基于概率模型的动态分层强化学习

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户：seed_sg

【摘要】

：

为解决大规模强化学习中的＂维度灾难＂问题,克服以往学习算法的性能高度依赖于先验知识的局限性,本文提出一种基于概率模型的动态分层强化学习方法.首先基于贝叶斯学习对状态转

【作者】

：

戴朝晖袁姣红吴敏陈鑫

【机构】

：

中南大学信息科学与工程学院

【出处】

：

控制理论与应用

【发表日期】

：

2011年11期

【关键词】

：

动态分层强化学习贝叶斯学习状态转移概率模型智能体 dynamic hierarchical reinforcement-learning Bayesian

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为解决大规模强化学习中的＂维度灾难＂问题,克服以往学习算法的性能高度依赖于先验知识的局限性,本文提出一种基于概率模型的动态分层强化学习方法.首先基于贝叶斯学习对状态转移概率进行建模,建立基于概率参数的关键状态识别方法,进而通过聚类动态生成若干状态子空间和学习分层结构下的最优策略.仿真结果表明该算法能显著提高复杂环境下智能体的学习效率,适用于未知环境中的大规模学习.

其他文献

红艳艳的窗花红艳艳开

期刊

拉萨之歌

期刊

拉萨雪山片段天堂故事萨拉

《民法典》统辖下的知识产权单行法修订

《民法典》统辖知识产权单行法的逻辑基础包括两个方面:一是民事权利属性统领下的权利平等保护,二是《民法典》相对于知识产权单行法所具有的"基本法"、上位法与一般法之地位

期刊

《民法典》民事权利知识产权单行法法律修订

电动助力转向系统多领域鲁棒控制模型的降阶方法

随着人们对汽车操纵舒适性、安全性和节能等方面要求的提高，鲁棒控制算法越来越广泛的应用于电动助力转向（EPS）控制系统中．针对高阶鲁棒控制器实时性差、成本高等问题，提出最优平