基于概率模型的动态分层强化学习

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户:seed_sg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决大规模强化学习中的"维度灾难"问题,克服以往学习算法的性能高度依赖于先验知识的局限性,本文提出一种基于概率模型的动态分层强化学习方法.首先基于贝叶斯学习对状态转移概率进行建模,建立基于概率参数的关键状态识别方法,进而通过聚类动态生成若干状态子空间和学习分层结构下的最优策略.仿真结果表明该算法能显著提高复杂环境下智能体的学习效率,适用于未知环境中的大规模学习.
其他文献
期刊
《民法典》统辖知识产权单行法的逻辑基础包括两个方面:一是民事权利属性统领下的权利平等保护,二是《民法典》相对于知识产权单行法所具有的"基本法"、上位法与一般法之地位
随着人们对汽车操纵舒适性、安全性和节能等方面要求的提高,鲁棒控制算法越来越广泛的应用于电动助力转向(EPS)控制系统中.针对高阶鲁棒控制器实时性差、成本高等问题,提出最优平
针对电动汽车电驱动系统的非线性特点,采用端口受控Hamilton系统理论与无源性控制原理研究了计及铁损的电动汽车用感应电机系统的建模和控制问题.首先,选取系统的总能量作为Hami
随着新课程改革的不断深入,校本教研正逐渐被学校所重视。针对这一问题,武隆县实验小学在实施新课程改革的两年来,勇于开拓、勇于创新、勇于实践,充分利用学校是"农村远程教
期刊
为云南省会泽县选育优良核桃品种提供参考,对会泽县54个核桃优株坚果经济性状进行多样性分析,并与云南省核桃坚果选育标准进行比较。结果表明:核桃坚果描述性性状中形状、缝