基于强化学习的机械臂轴孔装配策略研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:study_sky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
这便要求机器人不断具备更高水平的自主学习型的智能性,面对复杂环境、新任务、未知模型等任务时,可以自主地学习出一种技能来解决这些问题。其中在空间作业中采用机器人进行装配是主要的方法,面临的任务不断提高着对机器人智能性的要求。近年来,随着计算机计算力的快速增强,发展迅速的机器学习不断提高着计算机的智能性。当把它们引入到机器人领域中,机器人也可获得一种新形式的智能性。本文主要针对作为基本装配形式的轴孔装配进行相关的研究,包括基于阻抗控制的装配策略研究、基于深度强化学习的装配策略研究和仿真训练及相关对比实验。本文基于阻抗控制的机械臂装配策略研究中,首先对机械臂进行正向运动学、逆运动学和微运动学的分析,为机械臂系统的控制器设计提供相关基础性内容。然后对机械臂装配任务中的卡阻现象进行相关研究,分析阻碍控制机械臂进行装配的主要原因。并针对装配任务中的卡阻现象和机械臂装配的基本过程,设计一套总体的阻抗装配策略和流程。然后引入具有柔顺效果的机械臂阻抗装配策略,并对机械臂阻抗控制中的一个方向上的环境接触系统模型进行控制效果的分析。同时采用四阶RK法求解机械臂系统各个方向的阻抗关系中的微分方程。最后对其中涉及的参数进行大量的对比实验,进而获得相对最优的阻抗关系的参数值。在基于深度强化学习的装配策略研究中,采用的主要深度强化学习算法是在DDPG算法上改进的TD3强化学习算法。首先研究深度强化学习算法的基本内容,并推导了DDPG算法中的基本公式,并分析TD3算法对其改进的有效性。最后针对装配任务对TD3算法的几个相应方面进行改进,包含自适应退火型指导探索、网络结构预训练、改进replay buffer结构等。进而加快训练的计算效率,加速网络的收敛。最后针对仿真实验到真实实验的转移过程,设计相应的迁移学习算法。仿真训练和实验部分。本文主要使用V-rep仿真平台和python联合完成仿真训练。首先针对装配任务设计两个阶段的动作指导器和奖励函数,然后通过多组对比实验,证明改进方案的有效性。然后在接触力、柔顺量等方面验证了设计的阻抗控制的效果。最后针对多种干扰信号对两种策略的多方面进行对比实验。最后设计采用UR5机械臂完成相应验证实验的方案及相关软件。
其他文献
2019年1月,总行印发《中国农业银行2019-2022年教育培训规划》,为全行做好新时代干部教育培训工作提供了行动指南。农银大学山东分校紧密结合实际,积极创新实践,以"四个新"建
近年来,大学文科专业普遍开设了高等数学课,但由于文科高等数学教材和师资建设不完善,教学效果甚微。未来文科高等数学教学应该在教学理念上明确教学目的和要求,突出对学生数学思
为了进一步提高高职药剂专业教学质量,提升学生岗位能力,为医药企业输送合格的人才,本文通过对国内外校企合作现状的分析,提出了基于校企合作背景下,高职药剂专业人才培养方
新企业所得税法的颁布与实施是我国税制改革的重大进展,该法不仅将有效改变企业间税负不平现象,还对税收优惠政策作出了重大调整,税收优惠制度成为新税法的一大亮点。新企业所得
福柯的著作是对现代性的哲学批判,考察的中心问题是现代理性和人的主体性在西方社会兴起的社会历史条件。他独创了一种研究人文科学的哲学方法:知识考古学”。福柯的知识考古学
为给进一步筛选高光效、优良的油茶无性系提供参考依据,选择5个油茶优良无性系(‘湘林’系列XL210、XL82、XL190、XL81、XL14)9年生植株,于2013年7月观测了其光合参数及叶片解
中国海事管理,是实施以水上安全为中心的监督管理,为国家行政管理之一。海事管理源于周代,为这一管理而建立的组织机构始于西晋。自此,历代政府对海事管理机构不断加以完善,
分析介绍了国内外现有几种抗震类课桌的性能与结构特点,基于人机工程学基本原理,通过结构创新设计并制作了一种新型结构的抗震课桌。该课桌桌面采用木质面板、铝蜂窝板和不锈
8月21日上午,奥运火炬抵达海南省东方市。八所海事局组织干部职工积极参与“见证奥运火炬,支持北京奥运”万人签名活动,以实际行动支持2008北京奥运。
羽毛球作为一种轻盈的运动项目,其特征是全方位运动,运动员在进行羽毛球运动过程中,脚下移动衔接的能力必须充分掌握,只有这样,才能够准确的把握住高点,提高出球的水平,此外,