分层强化学习研究及其在机械臂避障问题中的应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:HanMa_1978
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分层强化学习在经典强化学习的MDP框架上引入抽象机制,从动作、任务和策略等角度对学习任务分解,构建分层机制,在抽象内部和抽象间的不同层次上分别对子任务进行实现,采取“分而治之”的途径有效克服了维数灾难。在大状态空间的应用领域,有着广泛的应用前景。基于先验知识和人工分层的强化学习方法无法适应日趋复杂多变的应用环境,因此赋予智能体自我探索、发现和构造层次结构的任务分解能力,实现学习中的自动分层,最终完成复杂、大型问题的求解已经成为分层强化学习领域的一个研究热点,而针对自动任务分解中的子目标发现问题是该领域最为活跃的研究之一。本文主要对以下几个方面进行了研究和探讨:首先,介绍了分层强化学习方法的研究进展和相关理论,对目前提出的自动分层方法进行了归纳和比较。其次,提出一种改进的基于动作信息量的子目标发现方法,该方法利用不同状态下智能体作出决策动作所包含的目标信息量来区分状态的重要程度,挖掘实现学习目标的关键状态的特征,并设计了在线的对大状态空间中的关键状态进行自动发现,进而实现学习任务层次分解的自动分层算法,然后利用二维有障碍栅格构成的迷宫寻径框架问题进行了仿真实验,与经典强化学习方法进行对比,验证了提出方法的有效性。最后,以三自由度冗余串联机械臂的自主避障为应用背景,引入层次机制,设计了机械臂避碰的分层强化学习模型。该学习模型将低层高维度关节空间中的轨迹学习抽象到高层低维度末端位置的路径学习,并融入本文提出的自动分层方法,在学习初期自动寻找关键路径点,生成轨迹片段,利用这些轨迹片段进行大粒度的避障学习。通过在ODE物理引擎搭建的机械臂仿真平台下的对比实验,说明了自动分层的层次方法对强化学习的学习效率提高有着积极的影响,验证了分层强化学习在解决高维度大规模学习问题时的有效性和可行性
其他文献
期刊
期刊
新华社海外专线  美国大学谴责“八卦”网站    互联网自诞生以来就被贴上“言论自由”的标签。而一些不负责任的网站正利用这点肆无忌惮地侵犯人们隐私,破坏他们的名誉。美联社17日报道,美国半年前出现一家名叫“多彩校园”(JuicyCampus.com)的“八卦”网站,该网站因捏造大学生的隐私故事受到美国大学强烈谴责。    网站害人    一天,美国康奈尔大学一名三年级学生在寝室休息时,收到好友发来
边缘电场(Fringing Electric Field,简称FEF)传感器是基于电容边缘效应的传感器,由于具有单边穿透、信号强度可调以及层析成像等优点,被广泛应用于工业过程控制中产品性能,如
自中华人民共和国成立以来,每当佳节来临之际,或者其他特殊日子,国家领导人的身影频频出现在德高望重的老一辈知识分子家中或者病房里,已经成为一种优良传统。国家领导人看望
演化博弈是从经济学中的经典博弈研究发展而来的一个新兴的研究领域由于其严密的逻辑推理和数学框架,近年来其受到数学家,物理学家和演化生物学家等的关注,并且已经取得显著
期刊
2011版的数学课程标准将“增强发现和提出问题的能力、分析和解决问题的能力”(即“四能”)作为数学课程总体目标的重要内容。与此相适应,我觉得广大数学教师在日常教学和研究中
山东省冶金矿山企业在今后的发展中,应提高矿产资源利用水平,重点抓好提高矿石回采率、降低损失率,提高金属回收率和矿石利用率,综合利用矿产资源,利用现有矿产资源生产高附加值产
AIM To investigate the correlation of iodine concentration(IC) generated by spectral computed tomography(CT) with micro-vessel density(MVD) and vascular endothe