基于深度强化学习的机械臂实时规划应用研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:abcdewwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对复杂多样的环境,机械臂怎样快速高效地完成任务是一个很大的研究热点。近几年来,随着深度强化学习技术的兴起,这种技术在机器人上的应用也受到了广泛的研究。利用强化学习算法,可以使得机械臂在不断试错中自主地去优化规划策略,最大化得到的奖励,从而实现最终的规划目标。本文将在堆积物体抓取、B超探头移动以及模仿图像三个方面分别讲述深度强化学习在机械臂上的应用研究,通过将深度强化学习与其他算法相结合,实时地规划机械臂完成这三种不同的任务。堆积物体的拾取一直是机器人研究领域的一个具有挑战性的课题。为了降低策略学习的难度,本文提出了一种基于深度强化学习和图像处理方法的机器人从桌上杂堆中抓取物体的框架。为了对桌面的物体进行操作,本文主要将机器人的动作分为两类:一类是使用强化学习方法的推动,另一类是通过图像形态学处理来推断的抓取。面对多物体堆积的情况,推的动作可以将堆叠的物体分开,为接下来的抓取创造一个稳定的抓取点。该框架把推和抓相结合,在保持较高的抓取成功率的同时降低了计算复杂度,能够快速实现堆积物体清理。在医学领域,B超是诊断疾病的重要手段,利用机械臂对患者进行自主B超检查能够减少医生的重复工作,为此本文研究了如何基于医生采集的数据学习B超探头检测肾脏的移动策略。通过B超图像感知决定B超探头的下一步姿态之后,能够控制机械臂运动使得位于机械臂末端的B超探头到达指定姿态,从而实现自主B超检测。在采集到的数据中通过筛选得到轨迹良好的数据,并使用监督学习算法从中学习从图像到探头动作的映射。在监督学习的基础上,本文提出了一种利用非平衡数据的强化学习算法,提高了B超数据的利用率并增强网络对未知人员的泛化能力。模仿图像是指给定一张目标图片,在目标图片中机械臂处于一个特定的状态,然后根据该目标图片控制处于初始状态的机械臂运动到特定状态。本文使用一种包含变分自编码器网络以及强化学习网络的框架,通过输入期望图像自主控制机械臂执行动作,使得其实际状态的图像与期望图像一致。在该框架中,图像被编码器处理后得到较短的特征编码,然后以编码作为强化学习的状态表达。本文利用编码之间的欧氏距离设计了定制的奖励函数,改善了网络的收敛性。该架构相比于普通的端到端强化学习网络更加具有通用性,可以应用于不同的目标以及任务。
其他文献
21世纪以来,得益于经济全球化的驱动,我国民航业发展迅速。快速发展的民航业促使航站楼的设计理念不断更新,航站楼建筑朝着集约化、复合化的方向发展,混流模式在此背景下应运而生。近年来,国内许多干线机场航站楼采用混流模式来组织航站楼出入港流线,成为一种新的设计趋势。鉴于此,航站楼设计师们开始探究混流模式和分流模式这两种流线组织策略在使用性能上的差异性。流线模式的空间差异性主要体现于航站楼的出入港区域,因
室温硫化硅橡胶(Room temperature vulcanized silicone rubber,简称RTV)因出色的防污闪性能在输变电设备外绝缘中发挥着重要作用。在紫外辐射和大气污染的影响下,RTV涂料在户外运行过程中存在老化脱落和表面严重积污的问题。为改善RTV抗紫外老化性能,本文首先对RTV开展紫外老化试验,探究RTV紫外老化机理,随后利用纳米改性技术制备纳米ZnO-RTV复合材料,并
考虑到化石燃料消耗量的增加,其他替代燃料的使用就变得特别令人感兴趣。生物质作为一种可再生能源,是生产化工产品和运输燃料的有效替代品。生物质原料具有以下特点:物产丰富,自然界中随处可见;可再生性,生物质能源是取之不尽,用之不竭的;绿色环保性,生物质资源的使用一般较化石能源产生更少的污染物。因此,利用生物质能源通过合理的途径转化为高价值的化学品一直是研究的热点。乙酰丙酸(LA)和5-羟甲基糠醛(5-H
近年来,水基泡沫在日常生活被广泛应用,特别是在食品、个人护理、化妆品和洗涤剂产品等领域。以水基泡沫为模板制备的多孔材料因具有高比表面积、高荷载能力等优势在生物医药输送、功能食品等领域显示出较高的应用价值。本研究以天然三萜皂甙甘草酸(Glycyrrhizic acid,GA)为基础原料,与纤维素纳米晶(Cellulose nanocrystals,CNCs)、羟乙基纤维素(Hydroxyethyl
近年来,肠道微生物对胃肠健康及某些代谢综合征的益生作用正逐渐被人们认可并广泛接受,被认为是“人体器官”之一。而乳酸菌作为人类肠道微生物的重要组成部分,具有安全性和高效性兼顾的特点,在食品、医药等领域有很大的应用价值。随着人们生活水平的提高,许多代谢综合征的发病率日益增长。二型糖尿病就是其中最常见也是危害最大的的代谢综合征之一,其病情主要特点为高血糖和胰岛素的相对缺乏。然而,目前关于乳酸菌调节血糖的
锂离子电池(LIBs)的商业化无疑推动了无线通讯和无化石燃料社会的改革,然而由于石墨负极的理论比容量有限,LIBs在能量密度上的提升速率逐渐落后于社会急剧增大的能源需求。因此,探索下一代替代锂离子电池的高比能电池,对于满足新兴电动汽车和电子信息产业的高能量需求尤为重要。具有超高理论比容量的金属锂负极可满足下一代500 Wh kg-1高比能电池的设计需求,有望取代传统石墨负极来进一步提高可充电锂电池
绿化的存在会影响建筑周围的流场,从而影响建筑表面对流换热过程。然而,目前关于垂直绿化表皮对壁面对流换热系数影响的研究鲜有报导,而且由于影响壁面对流换热系数的因素众多,现场实测难以实现单一变量研究。因此,本文基于热平衡法设计一套实验装置来测试壁面对流换热系数,并利用风洞营造不同的环境工况满足单一变量原则,研究垂直绿化表皮对壁面对流换热系数的影响。首先,本文基于热平衡法的实验原理设计了一套能够输出加热
电容的容值与极板间的距离、介质有关,通过构造合适的前端电路,电容数字转换器(Capacitance-to-Digital Converter,CDC)可以测量湿度、压力、位移等物理量,因而CDC有着广泛的应用场景,如压力检测、湿度检测、液位检测、位移检测、加速度检测、触摸屏等。为了满足不同的应用场景对CDC的不同要求,需要低功耗、高精度、宽测量范围的电容数字转换器。本文对电容数字转换器的理论进行分
配电网络深入各负荷中心,运行环境较为复杂,输电线路容易与树枝或建筑接触,极易形成高阻接地故障。发生高阻接地故障时,由于过渡电阻值很大,故障特征十分微弱。即使小电阻接地系统在发生单相高阻接地故障时,故障信息也十分微弱,传统零序过电流保护在过渡电阻达100Ω左右时就难以可靠动作。此外,灵活接地系统在发生永久接地故障时,将投入小电阻与消弧线圈并联接地,使系统从小电流接地方式转变为大电流接地方式,从而增强
今秋开学前夕,为解决如何让刚上完幼儿园的孩子能顺利地进入小学学习,上海市教委推出了以"学习准备期"为主要内容的改革措施。这一举措能否达到预期目的?上海市这一地方化改革举措对其它地区是否有借鉴意义?为此,本刊记者进行了专题采访。
期刊