分层强化学习方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:hantao2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。但是,强化学习一直被维数灾难所困扰。近年来,分层强化学习在克服维数灾难方面取得了显著进展,典型的成果有Option、HAM和MAXQ等方法,其中Option和MAXQ目前使用较为广泛。Option方法便于自动划分子任务(尤其分区或分段子任务),且子任务粒度易于控制,但利用先验知识划分子任务时,任务划分结果表达不够明晰,且子任务内部策略难于确定;MAXQ方法在线学习能力强,但自动分层能力较弱,且分层粒度不够精细,难于对一些规模依然很大的子任务做出进一步的分解。 本文集成Option和MAXQ探讨一种新的分层强化学习方法——OMQ,并深入研究集成过程中所涉及的理论与计算问题,以及该方法在实际应用中需要进一步解决的问题。 论文完成了以下主要工作: (1)提出了OMQ分层强化学习方法,给出了理论框架和学习算法,该框架集成了Option和MAXQ的优势,对学习任务既可以利用先验知识进行预先分层,也可以在学习过程中自动分层,拓展了任务分层能力;根据随机逼近理论采用数学归纳法证明了学习算法在与MAXQ相同的收敛条件下能依概率1收敛到递归最优解;实验表明OMQ学习算法的性能优于Q-学习、Option和MAXQ的学习算法; (2)提出了基于免疫聚类的OMQ任务自动分层算法,算法基于aiNet人工免疫网络模型及免疫克隆选择算法实现状态空间聚类,以生成的状态聚类子空间为基础构造子任务,实验表明该算法克服了以往的任务自动分层算法对状态空间可分割性的高度依赖问题;并借鉴免疫系统二次应答机制对算法进一步改进,提出了动态自动分层OMQ算法(DOMQ),在对状态空间进行初步探测之后即进行自动分层,并可以根据其后的探测结果对已生成子任
其他文献
如何解决迁移学习中的负迁移问题并合理把握迁移的时机与方法,是影响迁移学习广泛应用的关键点.针对这个问题,提出一种基于相似度衡量机制的决策树自适应迁移方法(Self-adaptive
新疆油田百口泉采油厂结合季节特点和生产实际,紧抓有利时机,严要求、强责任、重效果,细心为设备设施“体检保养”,使设备能以“强健体魄”再上战场,为春季原油上产安全平稳
央企加强党建的工作正在逐步落实.7月12日,国务院国资委消息,经研究,李跃、刘爱力同志任中国移动通信集团公司党组副书记.李跃系中国移动集团董事、总裁.
本文研究了复杂动态环境下多机器人系统的协作机制以及如何通过强化学习实现机器人的自主规划。提出了适用于组织大规模机器人群体的体系结构,实现了多机器人系统任务级的协
煤矿工作繁重、环境恶劣,风险无处不在,是一个不被看好的行业,申文斌却在此坚守了10年.2011年,由于业务突出,他被调任至宏圣公司安全管理部做部长.
水刺非织造材料发展前景广阔,技术进步和新产品开发使其应用领域不断拓展。半交铺生产线水刺产品的力学性能和均匀度作为基础性能指标对产品质量有很大影响,其变化规律及调节控制有较高的研究价值,本课题通过探究可以帮助企业在实际生产中获得力学性能符合要求的各向均匀的高品质产品。首先,论文对半交铺水刺生产线工艺流程与直铺水刺生产线工艺流程进行了对比,并简要介绍了关键设备、常用原料等。其次,论文实验探究了不同影响
文证明:对于圆锥曲线C,过点P(x0,y0),任作直线l交圆锥曲线C于M,N两点,若圆锥曲线C在点M、N处切线的交点为Q,则点Q在一定直线上.
普鲁兰酶(Pullulanase)是脱支酶,因其能水解葡聚糖的α-1,6-糖苷键而有不同的工业应用潜力。本研究通过同源建模和分子对接的方法对长野芽孢杆菌(Bacillus naganoensis)普鲁兰酶
目的通过分析危急值数据以完善危急值管理,进而提高急诊护士的危急值主动干预能力。方法对本科室危急值干预前的2016年2月20日至2017年2月22日与干预后的2017年3月5日至2018
炼化企业固定床渣油加氢装置运转周期相对较短,开、停工换剂次数多且占用时间长。中国石油化工股份有限公司抚顺石油化工研究院(FRIPP)对装置开工方案中催化剂干燥、硫化及原料