基于深度强化学习的四足机器人步态控制

来源 :上海海洋大学 | 被引量 : 1次 | 上传用户:liulang_6699
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
四足机器人具有灵活的避障能力和攀爬能力,可以穿越崎岖地形。合理的步态控制策略是实现四足机器人在复杂地形下的稳定运动的前提条件。目前四足机器人步态控制方法可以分为两大类:基于模型的步态控制方法和基于数据的步态控制方法。基于模型的控制方法主要包括摆动相轨迹规划和支撑相力矩控制。基于数据的步态控制方法又分为两类:1)将轨迹规划和深度强化学习算法相结合。2)独立使用深度强化学习算法从零开始学习,不需要使用任何的先验知识。为了提高四足机器人在前进过程中的运动稳定性和对凹凸地形的自适应能力,本文将深度强化学习算法融入到传统的四足机器人的步态控制中,本文的主要研究内容如下:1、首先总结了四足机器人主要的步态控制的方法。然后介绍了基于深度强化学习的四足机器人步态控制研究现状,对几个具有代表性的研究成果进行了分析。然后介绍了深度强化学习领域最新的三种算法并提出了一种可以提高鲁棒性的深度强化学习策略融合方法:三个算法TD3、SAC、PPO分别训练好各自的策略网络之后,将三个算法各自的决策神经网络单独取出来,将这三个网络并行运行,其输出的加权平均作为最后的策略输出。2、在solidworks中进行三维建模,搭建自己的四足机器人模型并利用sw_urdf_exporter插件制作模型对应的URDF文件。然后对该四足机器人模型的正逆运动学分析。然后进行四足机器人步态控制系统的总体设计,并分析传统控制方案和基于深度强化学习的控制方案的区别。然后进行四足机器人的单腿轨迹规划,包括摆动相轨迹设计和支撑相轨迹设计。最后进行四足协同控制器的设计,实现了Tort步态。3、将深度强化学习算法融入到传统的四足机器人的步态控制中,提出了一种新的融合方案:基于半固定参考轨迹的步态控制器。传统的融合策略都是基于固定参考轨迹的步态控制器。新的融合方案采用半固定步态的足端轨迹设计,将基于贝塞尔曲线的摆动相轨迹和基于平衡点假设的支撑相轨迹(阻抗控制的理论基础就是平衡点假设)进行参数化,针对不同的环境会生成不同的轨迹,以此来达到四足机器人对不同地形的适应性。通过深度强化学习算法来优化轨迹参数,通过轨迹参数的调整来达到对四足机器人速度和能耗控制的目的。4、搭建pybullet仿真环境,然后对部分环境参数添加随机扰动以增强控制系统的鲁棒性。建立一个随机高度的非平坦地形用于对步态控制策略进行测试。首先对上文提出的深度强化学习策略融合方案进行验证,将半固定轨迹参数PPO单策略步态控制器和半固定轨迹参数融合策略步态控制器的测试结果对比,发现采用融合策略可以有效的增加系统的鲁棒性。然后对上文提出一种新的轨迹规划和深度强化学习算法结合方案进行仿真验证,将半固定轨迹参数融合策略步态控制器和固定轨迹参数融合策略步态控制器的测试结果对比对,发现采用半固定轨迹参数可以有效的提高四足机器人对随机环境的自适应能力和运动稳定性。最后通过比较传统控制策略和基于深度强化学习的控制策略,以验证深度强化学习控制策略的有效性。然后搭建了实物平台,包括四足机器人pupper的软件系统和硬件系统,并进行了传统控制算法的实现。
其他文献
现有的潮流能发电装置的传动机构多数为带有固定增速比的齿轮箱,少数新型的装置采用了直驱形式的传动结构。在两种传动方案下,叶轮转速均会随着流速波动而变化,从而使得输入到发电机的转速也在不断地产生变化,这将使得输出的电能非常不稳定,难以利用。另外现有的潮流发电装置均存在着能量转化效率低下的问题,通过一定技术手段实现最大功率追踪可以在很大程度上提升发电效率。针对水平轴式潮流发电装置因流速波动导致的输出电能
学位
良好的水体水质是池塘健康养殖的基础,水质监测与水样采集作为移动式水质监测方法的关键技术,是水质监测研究的重要组成部分。为了提高养殖池塘水质管理的效率与精准性,降低水质监测与采样的劳动量,提高水产养殖区域的水质监测自动化程度,设计了移动式水质监测与采样一体化无人船。通过双体底船搭载船舱,船舱内置自主巡航控制盒、电源、姿态传感器、GPS、水质采样瓶组、水质监测传感器等。船体采用自主巡航的方式遍历各预设
学位
镁合金是一种性能优良的合金材料,具备比重轻、比强度高、铸造性好等优点,在交通运输、航空航天等领域得到普遍的运用,被认为是最具前途的材料之一。但镁合金在机械性能和耐蚀性方面相比其他工程材料仍显不足,这严重限制了镁合金的适用范围,因此,如何改进这种合金的性能就成为人们研究的重点。钕(Nd)元素是镁合金合金化中常用的稀土元素,在Mg-Nd二元体系中,含有少量Nd的镁合金就能实现较好的析出强化效果,从而使
学位
Ni-Co-Mn-In铁磁性形状记忆合金在温度降低的过程中经历从高温铁磁性奥氏体到低温弱磁性马氏体的结构相变,同时该相变可以由磁场驱动。作为一类Heusler合金,该系列合金在结构相变的过程中耦合着磁性相变,所以相变过程也伴随着晶体结构、晶胞体积、磁化特性等多种物理性能的突变,由此在这类合金的磁性马氏体相变温区会显示大的磁致应变效应、磁热效应和弹热效应,使得该合金近年来得到了广泛的研究,具有广阔的
学位
我国是一个海洋占地大国,占地面积高达300万平方米,拥有着及其丰富的海洋资源。随着我国人口的不断增长,陆地资源已经不足以满足人们的日常生产和生活需求,因此越来越多的人将目光转移到海洋资源上。近年来,海洋目标检测技术已经广泛应用于海产品捕捞、海洋生态系统健康评估和海洋生物多样性检测等领域。与传统图像检测相比,海洋目标检测相对困难,因为自然光在水下传播的过程中会被水中的悬浮微粒散射和被水吸收,导致人类
学位
舷提网是秋刀鱼捕捞作业的主要方式之一,其捕捞作业主要分为放网、诱网、起网三个步骤。秋刀鱼是大洋洄游性鱼类,速度快,行动敏捷。在舷提网作业过程中经常会因为浮棒不能及时到达指定区域,导致网衣中部的沉降深度不够而减小了灯诱区的空间体积,因此动力浮棒的推进速度是影响舷提网性能的重要因素之一。推动力和浮棒结构决定了动力浮棒是否能够稳定推进,推动力大的动力浮棒能提升工作效率,增加渔船的放网次数,提高经济效益。
学位
随着如今世界能源格局的持续变化,地球上原有的化石能源在被大量的消耗,化石能源的储量已经无法支持人们长久的生活下去,未来人们将有能源不足使用的困难。随着能源的缺少以及使用能源所带来的环境污染问题的加重,清洁能源和可再生能源的高效利用将成为当今以及之后的极其重要的研究方向。全球面积大部分为海洋,海洋能源蕴藏量巨大,海洋能的使用量十分丰富,因此合理高效的利用海洋波浪能,研究波浪能发电装置将会为我国在海洋
学位
随着科技的不断进步和生产力水平的不断提高,当代机械加工设备的加工精度、加工速度和集成化程度愈来愈高。目前,由于计算机技术的不断发展,有关于机械加工设备的健康监测系统日益完善,先进的检测设备和高效准确的故障诊断算法是确保机械设备检测系统安全、稳定运行的关键。其中对于故障诊断算法方面的研究主要集中于对机械设备的工作状况的实时监测。滚动轴承被誉为机械的“关节”,作为机械加工设备的重要组成部分,特别是在旋
学位
随着科学技术的不断进步,无人机的应用正在朝着多功能化、智能化、自主化的方向发展。无人机所能搭载的工作机构,如视觉机构、武器装备、采摘装置和喷施装置等,都说明了无人机应用的可拓展性。其中,工作任务为植物保护的无人机应用已经相对完善,通过无人机高空作业的优势,逐渐代替了人工的劳作,可以实现播撒药液、监测预警等功能。但是,在植物生长中还需要对冗余树枝、枯枝和干扰树枝进行修剪,现在基本采用的都是人工作业的
学位
风力发电作为一项清洁、环保、可再生能源,一直被许多国家视为能源战略发展目标。我国地理环境复杂,拥有广阔的草原、戈壁和绵长的海岸线,它们都为国家风力资源发展创造了良好的先决条件。大型风力发电机主要安装在地势平坦、风力资源丰富、平均风速高的地区,在实际选址时海岸、高原等地区是主要目标,这些地区偏远且环境恶劣对设备的维护造成极大的障碍。风电机组在使用过程中逐渐发生劣化,导致故障率升高。为了确保机组可靠度
学位