基于模型的层次化强化学习算法

来源 :北京交通大学学报 | 被引量 : 0次 | 上传用户:tangq_000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法.该算法采用两层结构,底层利用系统模型,采用贪婪策略选择探索动作,完成强化学习任务.而高层通过对状态区域的分析,指导底层的学习,纠正底层错误的动作.高层对底层的学习的指导作用主要包括:在泛化过程中,对泛化区域中正确与错误的状态判断值分别采用不同的学习因子,减小泛化对算法收敛性的影响;建立状态区域的推理规则,用规则指导未知状态区域的学习,加快学习速度;利用系统模型和推理规则,将探索过
其他文献
前言 1992年11月3日,美国进行了总统选举。结果原阿肯色州州长克林顿取得了胜利。经过12年民主党又重新执政了。这展示了美国国民为寻求变化的决心。当然也包括寻求环境政策
浙江北仑电厂三期7号机组是我公司建设的首台1000MW超超临界发电机组。针对机组中出现的T/P92钢焊缝,进行了焊接工艺评定工作。本文对T/P92钢现场焊接工艺及质量控制要点进行
在量身定制盛行的当下,单量、单裁这种传统服装制板技术与现代工业标准化、快速化生产之间的矛盾,是每个从事此项业务的人需要解决的问题。现以男西服纸样设计为突破点,通过
分析了图书馆老年读者的阅读心理特点,探讨了做好图书馆老年读者服务工作的策略,以期能够为广大同仁的实际工作提供一定的理论指导。
“百年大计,教育为先”,随着时代的蓬勃发展,教育领域也在跟着时代的节拍变换着步伐。越来越多的教学工作者为了提升初中数学课堂的教学效率,采用了合作学习的教学方式。这种教学方式改变了以往教育者和受教育者之间的单向关系,形成一种教育者和受教育者之间互相关联的多边交流关系。目的在于体现以学生为主体,教师为主导的新型教学模式,使学生在合作实践中不断提高自主学习的能力。然而,任何新事物的产生与发展都不会一帆风
论证了光学系统中透镜胶合面的反射是形成杂散光和影响成像质量不可忽视的重要因素。提醒光学仪器设计工程师,必须改变目前透镜胶合面不镀减反射膜的传统设计思想和加工工艺
目的研究胫腓骨中下段骨折经皮微创解剖型锁定钢板治疗的方法和临床疗效。方法选取我科自2009年1月—2012年3月采取微创经皮解剖型锁定钢板治疗的胫腓骨中下段骨折32例患者作
<正>随着社会的不断进步,人们生活水平的日益改善,人们越来越注重生活质量的提高,越来越注重自己的身心健康,对医院医护人员的素质及医院的医疗设施提出了新的更高的要求。他
研究了导致钯管氢气纯化器钯管破裂的原因,着重叙述了采用预处理纯化器等方法大幅度延长钯管使用寿命、保障产气纯度的效果。
目的探讨中药灌肠方治疗盆腔炎的临床效果。方法选取在我院进行盆腔炎治疗的患者88例随机分成试验组和对照组各44例,试验组采取中药灌肠方治疗,对照组采取头孢氨苄片联合甲硝