分层强化学习方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户：hantao2007

【摘要】

：

强化学习通过试错与环境交互获得策略的改进，其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。但是，强化学习一直被维数灾难所困扰。近年来，分层强化学习在克服维

【作者】

：

沈晶

【出处】

：

哈尔滨工程大学

【发表日期】

：

2006年期

【关键词】

：

分层强化学习免疫聚类自动分层多智能体分层强化学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习通过试错与环境交互获得策略的改进，其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。但是，强化学习一直被维数灾难所困扰。近年来，分层强化学习在克服维数灾难方面取得了显著进展，典型的成果有Option、HAM和MAXQ等方法，其中Option和MAXQ目前使用较为广泛。Option方法便于自动划分子任务(尤其分区或分段子任务)，且子任务粒度易于控制，但利用先验知识划分子任务时，任务划分结果表达不够明晰，且子任务内部策略难于确定；MAXQ方法在线学习能力强，但自动分层能力较弱，且分层粒度不够精细，难于对一些规模依然很大的子任务做出进一步的分解。本文集成Option和MAXQ探讨一种新的分层强化学习方法——OMQ，并深入研究集成过程中所涉及的理论与计算问题，以及该方法在实际应用中需要进一步解决的问题。论文完成了以下主要工作： (1)提出了OMQ分层强化学习方法，给出了理论框架和学习算法，该框架集成了Option和MAXQ的优势，对学习任务既可以利用先验知识进行预先分层，也可以在学习过程中自动分层，拓展了任务分层能力；根据随机逼近理论采用数学归纳法证明了学习算法在与MAXQ相同的收敛条件下能依概率1收敛到递归最优解；实验表明OMQ学习算法的性能优于Q-学习、Option和MAXQ的学习算法； (2)提出了基于免疫聚类的OMQ任务自动分层算法，算法基于aiNet人工免疫网络模型及免疫克隆选择算法实现状态空间聚类，以生成的状态聚类子空间为基础构造子任务，实验表明该算法克服了以往的任务自动分层算法对状态空间可分割性的高度依赖问题；并借鉴免疫系统二次应答机制对算法进一步改进，提出了动态自动分层OMQ算法(DOMQ)，在对状态空间进行初步探测之后即进行自动分层，并可以根据其后的探测结果对已生成子任

其他文献

基于相似度衡量的决策树自适应迁移

如何解决迁移学习中的负迁移问题并合理把握迁移的时机与方法，是影响迁移学习广泛应用的关键点．针对这个问题，提出一种基于相似度衡量机制的决策树自适应迁移方法（Self-adaptive

期刊

迁移学习决策树相似度亲和系数

新疆油田百口泉采油厂：设备换季“把脉问诊”忙“体检”

新疆油田百口泉采油厂结合季节特点和生产实际,紧抓有利时机,严要求、强责任、重效果,细心为设备设施“体检保养”,使设备能以“强健体魄”再上战场,为春季原油上产安全平稳

期刊

设备设施采油厂油田新疆问诊违规操作人为因素原油

李跃中国移动集团党组增设副书记总裁李跃、跃总裁刘爱力上任

央企加强党建的工作正在逐步落实.7月12日,国务院国资委消息,经研究,李跃、刘爱力同志任中国移动通信集团公司党组副书记.李跃系中国移动集团董事、总裁.

期刊

中国移动集团党组副书记刘爱力总裁中国移动通信集团公司国资委国务院央企

多机器人系统自主协作控制与强化学习研究

本文研究了复杂动态环境下多机器人系统的协作机制以及如何通过强化学习实现机器人的自主规划。提出了适用于组织大规模机器人群体的体系结构,实现了多机器人系统任务级的协

学位

多机器人系统任务分配冲突消解强化学习仿真系统

甘做安全生产铺路石

煤矿工作繁重、环境恶劣,风险无处不在,是一个不被看好的行业,申文斌却在此坚守了10年.2011年,由于业务突出,他被调任至宏圣公司安全管理部做部长.

期刊

安全生产管理部部长公司

半交铺生产线水刺非织造材料力学性能及均匀度研究

水刺非织造材料发展前景广阔,技术进步和新产品开发使其应用领域不断拓展。半交铺生产线水刺产品的力学性能和均匀度作为基础性能指标对产品质量有很大影响,其变化规律及调节控制有较高的研究价值,本课题通过探究可以帮助企业在实际生产中获得力学性能符合要求的各向均匀的高品质产品。首先,论文对半交铺水刺生产线工艺流程与直铺水刺生产线工艺流程进行了对比,并简要介绍了关键设备、常用原料等。其次,论文实验探究了不同影响

学位

半交铺生产线水刺非织造材料力学性能均匀度杂乱机构多辊牵伸

圆锥曲线切线性质在高考试题中应用

文证明：对于圆锥曲线C，过点P（x0，y0），任作直线l交圆锥曲线C于M，N两点，若圆锥曲线C在点M、N处切线的交点为Q，则点Q在一定直线上．

期刊

圆锥曲线曲线切线高考试题应用性质直线

长野芽孢杆菌普鲁兰酶的同源建模及三维结构分析

普鲁兰酶（Pullulanase）是脱支酶,因其能水解葡聚糖的α-1,6-糖苷键而有不同的工业应用潜力。本研究通过同源建模和分子对接的方法对长野芽孢杆菌（Bacillus naganoensis）普鲁兰酶

期刊

长野芽孢杆菌普鲁兰酶同源建模结构分析Bacillus naganoensis Pullulanase Homology modeling Stru

急诊护士对危急值的主动干预在急诊抢救中的应用与成效

目的通过分析危急值数据以完善危急值管理,进而提高急诊护士的危急值主动干预能力。方法对本科室危急值干预前的2016年2月20日至2017年2月22日与干预后的2017年3月5日至2018