基于深度强化学习的冗余自由度机器人路径规划研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:gudujian13
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无论是机械臂,还是移动机器人,路径规划在机器人的任务执行中都起着至关重要的作用。路径规划即是规划使机器人本身或其末端从给定起点(区域)到给定终点(区域)的可绕开障碍物的可行路线。传统路径规划者(Traditional Path Planner,TPP)中的主要技术手段包含矩阵数乘运算、迭代循环以及概率采样等。相应的TPP的方法通常受到计算量,超参数和随机概率等约束,导致其很难或者不能适应某些复杂多变的机器人路径规划任务需求。深度强化学习(Deep Reinforcement Learning,DRL)可让智能体自主地对环境进行探索,并且利用前期探索所得的经验指导智能体后续的探索行为。该特点使其对复杂多变的任务环境具有很好的适应性。本文旨在研究DRL在机器人路径规划任务中的创新性应用方法。主要研究工作如下:(1)为进一步提升深度强化学习算法平衡探索和利用的能力,在最大熵的框架下,提出一种将Tsallis熵簇函数和自动熵调整相结合的DRL算法。该算法采用一种梯度裁剪的温度系数更新方式,更加稳定高效。(2)针对笛卡尔空间中机器人路径规划的问题,结合TPP方法和DRL算法的优点,提出一种融合TPP探索能力和DRL经验回放的路径规划框架。该框架可保证在路径规划的迭代更新过程中避免TPP的绝对概率随机性,同时可降低DRL算法中奖励函数设计的复杂度,使得在面对复杂任务场景时的路径规划的成功概率和长度优化幅度都显著提升。(3)针对具有冗余自由度的机器人逆运动学(Inverse Kinematics,IK)求解问题,本文结合DRL算法和人工神经网络(Artificial Neural Network,ANN)的优点,提出一种融合DRL寻优能力和ANN精确拟合的逆运动学求解框架。该框架用ANN拟合代替了传统公式型IK求解,适用于任意本体结构的机器人。同时,当机器人本体带有冗余自由度时,能通过DRL算法寻找到最优IK解。此外,为验证上述工作,在虚拟和实物机器人平台中还开展了大量的具有针对性的对比实验,实验结果证明了所提出框架和DRL算法的可行性和优越性。
其他文献
<正>随着全球化进程的加速,研发型企业面临着越来越激烈的国际竞争。为保持和提高自身的竞争优势,研发型企业需要继续加大技术创新的投入,提高研发能力和创新能力,深化合作和交流,加强知识产权保护,以实现高质量、可持续发展。自工业革命以来,科技创新一直是推动人类社会进步和经济发展的重要力量。如今,在全球化和信息化时代,技术创新对企业竞争力的影响愈加显著。特别是对于研发型企业而言,技术创新更是其核心竞争力的
期刊
近年来,《深化医药卫生体制改革》《医院智慧管理分级评估》《薪酬制度改革》等国家政策先后下发。政策环境改变所带来的全新发展机遇不仅使医疗人才市场的竞争愈加激烈,而且对医院人力资源管理提出了越来越高的要求。人力资源管理要与医院发展共生、与战略共存。如何进一步发挥信息技术在现代医院管理建设中的重要作用已成为医院管理者们亟需解决难题。本文分析了医院人力资源管理现状,从不同方面阐述人力资源管理的有效对策。
期刊
智能场景理解对计算机视觉技术有急切的需求,而视觉目标跟踪领域是其中的关键环节之一。视觉目标跟踪是通过第一帧所提供的目标模板,由跟踪器学习其属性特征,并从后序帧中准确判别目标并追踪。经长足的发展,现有目标跟踪算法已能一定程度克服低分辨率、遮挡等因素从而实现长时效地跟踪目标,但在跟踪实况场景中仍受到诸多因素的影响下,跟踪算法表现出低准确率、低鲁棒性。为此本文提出基于Siamese网络与多路径特征融合的
学位
癌症是威胁人类生命健康的杀手之一,研究癌症的发病机制及探索如何有效克服癌症是全世界科研工作者共同的研究课题。癌症传统治疗方式包括手术治疗、放射性治疗、化疗等,但以上这几种治疗方式都存在自身的缺点,如手术治疗的副作用比较大、患者承担的风险也就比较高并有些特殊部位的肿瘤无法切除等问题,患者的选择性较低。虽然放射性治疗和化疗可以有效的杀死肿瘤,但是与此同时也会严重损伤正常组织及细胞,毒副作用比较大。为了
学位
随着工业自动化水平的快速提升,柔性机械臂因具备重量小、臂展长、灵活性好、载重大、成本低等特点在各行业的需求量逐步增长。目前,柔性机械臂在航空航天、工程施工、紧急救援等方面都有着广泛的应用。因此,广大专家和学者针对柔性机械臂相关技术展开了大量研究。但当前大部分的研究成果主要聚焦于单连杆柔性机械臂或多连杆柔性机械臂,对于伸缩结构的柔性机械臂的研究较少,特别是同时包含旋转伸缩混合结构的柔性机械臂的研究更
学位
随着工业技术的不断发展,集中供热的供暖方式已在我国得到广泛的应用,但是我国的供热管网的优化控制技术与欧洲发达的国家还存在着较大的差距,多个热力站的热量分配问题仍然是尚未解决的难题。如何制定适合的供热策略才能得到良好的供热效果,减少资源的浪费的方法依然在探索当中。由于热网系统自身非线性、大滞后、时变性、强耦合的特性,传统控制方法很难取得较好的效果。针对集中供热系统多个热力站一次管网的热量分配问题,文
学位
疑罪作为一种客观事实存在于司法实践中,对于疑罪的处理也逐步经历从有到从无的发展。遗憾的是,即使疑罪从无原则在法律规范层面被确立,但是有罪推定思想仍渗透在刑事案件中,且导致疑罪从无原则在司法实践中一度异化为疑罪从挂、从有、从轻、再理等形式。任某故意杀人案、卢某强奸、杀人案及雍某故意杀人案皆存在侦查机关非法取证,法院未依法排除非法证据,且案件处于未达证明标准状态,一审法院本应依法做出无罪判决,但一审法
学位
随着人们对于可持续发展越来越关注,环保的理念也愈发深入人心。在空调领域压缩机性能的好坏直接决定了空调工作时的冷热转换和吹风效果。永磁同步电机(PMSM)因为其结构简单灵活、损耗小、温升低、效率高等特点逐渐取代传统的异步电机,成为空调压缩机的核心驱动电机。永磁同步电机由于其低碳环保的优势,在航天、机器人、汽车和家电等不同领域都有着广泛应用。对永磁同步电机在不同环境对象中的工作表现进行深入研究,是十分
学位
铁水车罐号的自动识别目前是钢铁企业生产跟踪过程的一个痛点,准确识别铁水车罐号是实现生产环节自动跟踪的关键。当前铁水罐车号的识别主要由人工记录完成,此方法可能因人为因素造成误检、漏检,效率不高,还存在安全风险。而射频技术和传感器的识别方法,由于罐车外壁高温等环境限制,无法正常工作。随着钢铁企业转型升级需求的不断提升,传统依靠人工记录钢包运输车辆位置以及钢包编号的方式已无法满足企业对生产流程智能化和信
学位
城市绿地的设计是目前中国城市化绿地建设中的一项重要内容,但是城市绿地设计在是否真正适合当地城市居民的需求上,还存在问题与不足。究其原因在于具体项目设计中并没有真正从城市居民群体的游憩行为、心理需求、情感夙愿及满足现代化城市居民服务设施进行思考。根据地方依恋理念,对莲花山公园进行调研及总结,为城市绿地更新设计的研究提供支撑点及新的视角。深圳市莲花山公园绿地更新设计研究基于地方依恋理论,从游憩者角度出
学位