基于深度强化学习的机械臂运动规划研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:meteorwei66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多自由度机械臂具有运动灵活的特点,其运动规划是机器人领域的研究热点。机械臂在有障碍物的复杂环境中进行抓取、搬运、人机协作等运动时,需要对机械臂的运动路径及抓取姿态进行规划。本文重点研究了基于深度强化学习的机械臂的路径规划和位姿规划,针对机械臂的运动规划训练时间长和训练样本多的问题,进一步提出了具有迁移学习的深度强化学习的机械臂运动规划算法。首先,针对机械臂避障问题,提出了基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的NAO机器人右臂路径规划算法。基于MuJoCo仿真平台搭建了无障碍物和有障碍物仿真环境,在仿真环境中,通过设定的奖励函数,采用DDPG算法进行了机械臂路径规划控制策略的自主学习训练,实现了机械臂由输入到输出的端对端控制,完成了机械臂避障的路径规划。其次,在无障碍物环境下,针对多自由度机械臂抓取物体的位姿规划问题,提出了基于DDPG的位姿规划算法。根据NAO机器人右臂不同的抓取姿态,设计了学习任务的奖励函数。由于DDPG算法在训练过程中需要耗费大量的时间和数据样本,进一步提出了基于迁移学习的DDPG算法,通过对比DDPG算法和基于迁移学习的DDPG算法的训练结果,表明基于迁移学习的DDPG算法具有更快的训练速度。采用LINEMOD算法获取目标物体的位姿,在NAO机械臂上完成了基于迁移学习的DDPG算法的位姿规划实验。最后,在有障碍物环境下,针对多自由度机械臂抓取物体的位姿规划问题,提出了基于迁移学习的DDPG的避障位姿规划算法。仿真结果表明,在有障碍物环境下基于迁移学习的DDPG避障位姿规划算法比传统的DDPG避障位姿规划算法的训练速度更快。为了验证所提算法的有效性,进行了有障碍环境下NAO机器人右臂避障的位姿规划的实验,实验结果表明在有障碍环境下,基于迁移学习的DDPG算法能够有效的在位姿规划的过程中实现避障的规划。
其他文献
在信息无限的Internet网上.有着几千年历史的灿烂的中华文化仅在其中占了2%,泱泱十几亿人口的国家,网上的信息却寥寥无几。中华文化正面临着危机。科学技术的迅猛发展大大改变了人类社会的
伴随晚清以后妇女解放运动的兴起,中国妇女的参政意识逐渐觉醒,并最终在1912年形成了轰轰烈烈的参政运动。但在运动达到高潮之时,却隐藏重重危机。最终,运动走向沉寂。尽管没
本文通过查阅文献资料、野外走访和标本采集等方法,对青藏高原甘南地区石竹科藏药植物资源进行初步调查,研究结果表明,甘南地区石竹科藏药植物共有6属10种,并对青藏高原甘南
主要分析了财务管理在企业运营中的作用,希望能够给民营企业中的相关人员提供一定的参考和帮助。
为了解我国学校社区体育一体化发展基本思路和途径,采用文献资料法、系统分析法和逻辑分析法等研究方法,对我国学校社区体育一体化发展的基本思路和有效途径进行了综合分析。研
目的:探讨MRI血氧水平参数R2*、T2*值在肝脏常见占位性病变之间的差异及其鉴别诊断价值。方法:分别对一组肝细胞癌、肝内胆管细胞癌、转移瘤、血管瘤及肝脓肿病例行MRI多回波R2*扫
导生制是当前彩响较为深远向教学组织形式之一,主张让学生当教师,充分发挥导生和学生的主观能动性,调动学习兴趣。针对目前普通高中综合实践活动课程实施存在的教学观念陈旧
根据多重分形基本理论,建立了基于盒计数法的爆破振动信号多重分形谱模型,并开发了基于C++的多重分形谱分析平台。分别对碳酸盐岩中爆破地震波测试信号开展了单道、多道信号的
世界具有较大影响的教育,教学改革,无一不是从课程入手。课程是实施教学的媒介,学生知识的重要载体,适应社会的一面镜子,教学管理的核心。课程设置是实现培养目标和培养规格的中心
根据固体与分子经验电子理论、键差距(BLD)方法以及结合平均原子模型分析了不同W含量的Ta-W合金固溶体的价电子结构,计算了最强键的共价电子数n_A、强度因子η和键能Ea,分析了价电子结构参数与Ta-W合金宏观物理性能之间的关系。在价电子理论基础上通过放电等离子烧结(SPS)方法制备了不同W含量的Ta-W合金试样。借助X射线衍射仪(XRD)、金相显微镜(OM)、扫描电镜(SEM)以及电镜自带的能谱