基于强化学习的机器人行为控制研究

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:gedebao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,机器人技术的研究与应用在全球范围内得到了空前的重视,各个国家先后出台了机器人相关的国家发展战略。我国也发布了《机器人工业展开计划(2016-2020年)》,力求在潜力巨大的机器人产业实现跨越式突破,使机器人技术发展成为实现《中国制造2025》目标的有效推动力。面对机器人所处复杂动态的环境,如何设计有效的控制器和决策机制,使机器人在复杂变化的未知环境中稳定工作,自适应完成任务,是机器人智能化研究的重要问题。强化学习利用与真实世界交互所收集到的样本数据自主学习最优行为,已经成为实现机器人最优控制的有效方法。虽然强化学习已经在某些特定领域取得进展,但是在很多机器人环境中仍然难以应用。强化学习很难应用于真实机器人的最重要的原因有三点:(1)机器人的状态、动作空间一般均为高维度的连续空间。庞大的决策空间使得普通强化学习方法,甚至基于降维和近似的强化学习方法迅速失效。(2)强化学习需要大量的样本来探索机器人的高维连续状态空间,而机器人的内部结构之间往往存在着彼此之间的相关性,这种相关性是存着时间、环境的变化而动态变化的。随着环境的变化,强化学习算法无法准确的感知到此时最需要关注的位置,因此算法往往会遭遇到学习速度过慢的问题。同时,强化学习算法往往不具有可解释性,对强化学习训练得到的策略无法得知策略成功或者失败的原因。(3)强化学习完全从零试错学习,无法融合人类的经验、知识。真实机器人需要与人类交互,若不能融合人类知识,将导致无法预期的机器人行为,甚至误伤人类。目前,虽然已经有多种方法能够初步解决融合人类先验知识的问题,然而这些算法的优缺点、适用范围都不明确,因此,需要一种自适应的人机融合算法来更深刻的研究人类–智能体强化学习算法的作用和优缺点,同时能够适用于各种情形下的人机融合。为了缓解以上问题,本文将从三个方面进行探讨:基于去中心化多智能体强化学习的机器人控制方法、基于注意力机制的动态拓扑机器人控制学习方法、以及自适应人机融合的强化学习方法,并将提出的方法与原始方法在多个标准的大规模状态空间机器人上进行的详细的实验对比以及实例分析,验证了本文提出的方法在解决上述三个机器人强化学习难点问题上具有显著的效果提升。
其他文献
采用包覆法,将含有无卤阻燃剂的热固性酚醛树脂胶包覆在预发泡的可发性聚苯乙烯(EPS)珠粒表面,再通过水蒸气发泡、模压成型工艺制备出无卤阻燃EPS泡沫材料.研究了3种无卤阻燃
多波段SAR图像数据所提供的信息具有冗余性、互补性和合作性,基于这些特点图像融合要达到的主要目标是:通过对多波段SAR图像进行融合,得到比仅使用单幅图像更完全、更准确、更精
自《国家文物事业发展“十三五”规划》正式发布实施以来,“保护为主、抢救第一、合理利用、加强管理”的文物工作方针被开展起来。使用数字化手段对文物进行保护与复原也成
伴随着计算机技术与现代通信技术等信息化手段在企业发展过程中的不断加深,为了应对日益激烈的市场化竞争,不断提升商业集团的核心竞争力,加强店面信息管理系统项目建设,努力
瑕疵意思表示,是指在一项意思表示在形成至到达相对人的过程中,由于各种各样的原因,导致表意人所表达出来的行为与其内心真意不一致的情形。法律对这种不一致设置不同的法律效果的,以规范人们在交往中的活动,这是瑕疵意思表示制度。对于瑕疵意思表示制度的研究,我国相对于比较法而言,对于瑕疵意思表示制度的研究以及相关立法的规定都显得比较薄弱。我国对于瑕疵意思表示的规定还存在一定的不完善之处,笔者通过对我国的立法进
<正>2019年5月16日,诺力昂(前阿克苏诺贝尔专业化学品)推出可再分散聚合物粉末产品Elotex~?(易来泰~?)HD2040,助力建筑与建材市场的干混砂浆生产商满足其在质量和可持续方面
国家形象就像国家的“名片”,良好的国家形象对于一个国家的发展起着重要的作用,国家形象的传播越来越受到各个国家的重视。伊朗在已经进行的国家形象的民调中不是排名居于末
生物胺(Biogenic amine,BA)是一类具有生物活性的低分子量含氮有机化合物的总称,广泛存在于富含蛋白质和氨基酸的水产品中。大黄鱼(Pseudosciaena crocea)作为我国重要的经济
目的探讨经皮穿脾门静脉插管的可行性、操作技术及其在肝癌介入治疗中的应用价值。材料与方法选用微创穿刺器械,对23例需行门静脉插管介入治疗而不适合采用经皮穿肝或手术置管
背景:随着生活水平的提高,老年患者为求高质量的生活,TKA手术技术的提高,膝关节假体研究的深入,TKA术后远期效果得到了广泛的认可,故行KTA术的老年患者越来越多。TKA术后大部分并发症也得到了很好的解决及预防,然而术后镇痛一直是我们骨科医师无法很好解决的问题。目的:本研究观察罗哌卡因、氨甲环酸在膝关节置换术后关节腔注射对患者术后疼痛疗效、增加患者早期膝关节活动度,在一定伤口引流范围内,术后关节腔