基于强化学习的机械手智能路径规划方法的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：johndovl1

【摘要】

：

【作者】

：

柳依辰

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2021年01期

【关键词】

：

深度强化学习路径规划多智能体合作集中训练-分散执行

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统的机械手路径规划方法通常需要建立精确的数学模型,只能用于固定的任务环境,缺乏泛化能力。近年来,深度强化学习（Deep Reinforcement Learning,DRL）在机器人博弈等领域取得了突破性的进展,研究人员开始探索将DRL应用于机械手控制的可行性。另外,虽然DRL在单智能体环境下的研究逐渐趋于成熟,但在多智能体场景中仍然有较大的发展空间。与单智能体环境相比,多智能体环境最大的不稳定性在于环境中每个智能体的策略变化都会对环境产生影响,导致训练网络难以收敛。针对以上背景,本文以机械手为对象,针对工业环境中机械手的抓取与放置,开展机械手的路径规划研究,主要研究内容如下:首先,本文重点从奖励函数设置和经验回放池的结构两方面分析了基于最大熵的Actor-Critic算法（Soft Actor Critic,SAC）应用于本课题时存在的问题,设计了一种将形式化奖励和分布奖励结合的复合奖励策略,同时,改进了经验回放池的结构,将原来的随机采样修改为基于最大奖励的优先采样方式。在NX（Siemens仿真软件）内建立单机械手路径规划任务的三维力学模型,将改进后的SAC算法应用于NX仿真模型上,对实验结果进行对比分析,验证改进算法的有效性。其次,本文将SAC算法与集中训练-分散执行（CTDE）框架相结合,将单智能体强化学习算法SAC扩展至多智能体环境中,有效地解决了多个智能体环境下的动态决策问题。在此框架下,Critic网络提高算法稳定性的方式是将其它智能体的观测一同输入进行训练。Actor网络则采用分布式设计,为每个智能体所独有,执行动作时策略网络仅需要考虑自身的环境状态。最后,由于CTDE框架中,智能体的Actor网络只能获得自身的观测值,智能体之间没有有效的沟通。因此本文在智能体之间建立信息共享机制,提出MASAC算法,每个智能体可利用循环神经网络GRU的原理将各自的观测信息写入通信设备,同时也可以对信息解码读取信息。经过迭代,智能体不断优化通信参数,实现智能体之间的信息交互。实验表明,MASAC算法在双机械手的路径规划任务中取得了不错的表现,相对于单智能体强化学习方法SAC,本文提出的MASAC方法大大提高了两个机械手协同合作时路径规划任务的成功率。

其他文献

基于卷积神经网络的Dropout方法研究

近年来,随着计算机软件及硬件的飞速发展,深度学习得以在计算机视觉、自然语言处理、无人驾驶等领域崭露头角。卷积神经网络作为深度学习中最重要的模型之一,在图像分类、目标检测等方向上取得了优异的成绩,但也伴随着诸如过拟合、时间内存开销较大等需要解决的问题。作为最具代表性的正则化方法之一,Dropout方法通过屏蔽部分神经元参与训练的方式有效地抑制了过拟合现象的发生。但在卷积神经网络上,普通的Dropou

学位

深度学习卷积神经网络正则化方法Dropout自蒸馏方法

碳化硅高温压力传感器结构的应力模型研究

随着科技的发展,碳化硅高温压力传感器被广泛应用在石油钻井、化工冶金和航空航天等领域。目前国内外主要致力于传感器结构设计优化及失效分析和欧姆接触结构设计及失效分析等方面进行研究,对碳化硅高温压力传感器的应力模型研究报道较少。在广泛使用高温压力传感器的航空航天领域,传感器发生故障可能导致巨大的财产损失甚至危及人的生命安全。因此,研究碳化硅高温压力传感器结构在不同应力,尤其是综合应力下的应力模型,定量描

学位

高温压力传感器可靠性应力模型欧姆接触绝缘结构

基于深度学习区域分割的InSAR相位解缠技术研究

合成孔径雷达干涉测量技术（Synthetic Aperture Radar Interferometry,简称InSAR）是一门融合了 SAR成像和干涉测量的新技术,并且在三维重建和形变监测方面取得了重大成就。由于InSAR系统无法直接通过干涉相位获取准确的地球物理量,相位解缠作为InSAR技术流程中的一个重要环节,能够通过缠绕相位还原真实相位,从而使整幅图像能够提供有意义的信息。一方面,深度学习

学位

InSAR相位解缠深度学习区域分割多基线

基于模型预测控制算法的多四旋翼协同控制技术研究

由于单架四旋翼存在飞行距离短,载重有限等问题,因此在一定程度上限制了某些场景下的应用。多四旋翼协同控制能够很好的解决单架四旋翼存在的不足,如何协调多架四旋翼的协同控制成为研究的热点。首先,介绍了四旋翼飞行器的建模过程。第一步对四旋翼飞行器的组成和结构进行简介,然后再建立相关坐标系和四旋翼飞行器的数学模型,简要介绍模型预测控制,通过对模型进行分析,将模型解耦并线性化成平移和转动动力学的线性时变状态空

学位

四旋翼飞行器领航-跟随法维诺图协同控制模型预测控制

面向人脸表情识别的深度神经网络模型压缩研究

近些年来,随着机器学习和深度神经网络两个领域的迅速发展以及智能设备的普及,人脸表情识别技术正在经历前所未有的发展,基于深度卷积神经网络的人脸表情识别算法取得了长足的进步,并且已经超越了传统的人脸表情识别算法。同时,5G时代的到来以及大规模普及的软硬件基础条件也已具备,基于这种方法的市场与应用前景十分广阔。然而深度卷积神经网络存在着自身的局限,随着网络结构变得愈加复杂,训练参数量也与之增加,使用网络

学位

神经网络人脸表情识别模型压缩知识蒸馏多步蒸馏

基于数据挖掘的呼吸系统疾病风险分析关键技术研究

在过去的几十年中,科技的进步推动着全球经济快速发展,也使得人民生活质量稳步提高,但是伴随而来的是越来越高的疾病入院率。呼吸系统疾病具有易感染、易复发、治疗周期长等特点,已经严重地威胁到了人们的身体健康,给全世界造成了沉重的负担。随着计算机科学技术的发展与大数据和人工智能的广泛应用,通过数据挖掘的方法对呼吸系统疾病的风险进行分析,既有助于对该疾病更为全面地认识和了解,也能够提高医疗服务体系的质量。本

学位

呼吸系统疾病广义相加模型非计划再入院预测疾病共病网络聚类分析

基于深度学习的人体姿态估计技术研究

这几年来,计算机视觉相关技术飞速发展。人体姿态估计作为研究人类运动的基本方法,成为众多学者们研究的热点。其主要任务是在图像中检测出人体关节和关键部位的坐标位置,从而得到人体局部或全部的肢体信息,以此来判断人体的行为。随着深度学习相关技术的快速迭代,基于卷积神经网络的人体姿态估计研究也取得了巨大的进步。基于自动特征提取的的深度学习方式已经能够替代传统的手工特征提取来实现输入端到任务端的点对点优化,当

学位

人体姿态估计快速人体姿态估计自动尺度选择回归型交叉熵

基于深度学习的神经机器翻译技术研究

翻译服务的重要性随着经济全球化的加速,日益显著。机器翻译相较于人工翻译,成本更低,速度更快,也因此更适应当今时代。神经机器翻译技术使用深度学习方法在平行语料上进行训练并获得翻译模型,已经成为当前主流的机器翻译方法。神经机器翻译快速发展的过程中,一直面临着较多挑战。在诸多挑战中,本文分别在数据稀疏和模型改进两个方面进行了研究工作,主要包括以下内容:1)提出了一种场景通用的数据增强方法。本文分析了富资

学位

神经机器翻译数据增强多粒度动态词向量

基于深度学习的实体关系抽取技术研究

互联网和大数据时代的到来,大量信息以非结构化的电子文档形式展示,如何高效地结构化这些文本数据成为一个亟待解决的问题,信息抽取则在这一背景下应运而生。信息抽取研究旨在低成本地从复杂、冗余的文本中提取出高质量、结构化的可利用数据,极大地推动了自然语言处理研究的发展。关系抽取通过挖掘出实体间的关系类型信息,形成规则的实体关系三元组,从而将非结构化文本构建成结构化文本。其作为信息抽取的核心任务之一,在知识

学位

深度学习关系抽取BERT图卷积网络

基于深度学习的脑肿瘤图像分类研究与实现

根据世界卫生组织发表的统计,癌症已经成为造成人类死亡的第二大元凶,而在各种肿瘤中,脑肿瘤是最致命的类型之一。对于脑肿瘤患者而言,及早地确定脑肿瘤的类型对于制定专门的治疗方案和治疗后的存活率极其重要。医学影像技术通常被选为鉴别脑肿瘤类型的首选技术。在过去,脑肿瘤的诊断需要医生阅读肿瘤图像,然而人的精力是有限的,大量的重复工作会带来诊断错误率提升进而加重医患矛盾。为克服这些问题,以病理图像为基础的计算

学位

注意力机制卷积神经网络损失函数脑肿瘤分类系统

基于强化学习的机械手智能路径规划方法的研究

与本文相关的学术论文