基于深度强化学习的四足机器人运动控制研究

被引量 : 0次 | 上传用户:hghyxx_0918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在未知并且复杂的环境中,足式机器人因其具有离散的落脚点的优点被赋予野外探索、救援等重任,四足机器人相比于双足机器人,其自身的结构稳定性更好,相比于六足机器人,其结构更加简单,运动过程中协调性更好,控制更加简单,因此被众多学者广泛研究并取得一定的成果。传统的四足机器人运动控制通过手动的方式对系统的各项参数进行调节,过程繁杂且需要花费大量的时间和精力,所得到的控制策略往往只针对特定的一类环境,控制策略泛化能力差。针对上述存在的问题,本文搭建了基于DDPG的四足机器人运动控制器,针对其不足设计改进的LSTM-DDPG运动控制器,使用基于DDPG和改进的LSTM-DDPG算法完成机器人的运动控制;通过在虚拟仿真环境中训练和测试来对算法的有效性进行验证,最后将控制网络迁移到实物样机上进行测试。论文的主要工作如下:(1)为充分展现控制算法的性能,提高机器人在环境中的探索能力,本文选取具有新型腿部结构的机器人为被控对象,该机器人具有非同轴二自由度五连杆机构组成腿部结构,本文对机器人进行运动学建模,对单腿正逆运动学和walk步态下的运动稳定性进行分析,使用贝塞尔曲线完成机器人运动过程中的足端轨迹规划。(2)针对现有的控制方法需要手动调节的问题,本文使用DDPG作为机器人的运动控制算法,结合基于先验知识的机器人运动控制策略,将基于深度强化学习的控制信号和先验知识信号耦合进行机器人的运动控制。(3)针对深度确定性策略梯度算法训练收敛速度慢的问题,本文使用改进的LSTM-DDPG算法对机器人的运动进行控制,引入机器人的状态时序信息,使得机器人的姿态调整具有预判性,在训练过程中策略开始收敛的迭代次数从2.5×10~5减小到2×10~5,运行过程中机身的姿态角变化范围减小,机身稳定性提高。(4)分别搭建基于DDPG和基于改进的LSTM-DDPG算法的机器人运动控制器并在仿真环境中进行训练,通过在虚拟环境中仿真分析,验证了算法设计的合理性和有效性。最后提出基于随机干扰的控制模型鲁棒性增强方法,通过该方式增加控制模型的鲁棒性并进行控制系统的实物迁移。
其他文献
高速、大规模光交换芯片能够作为大型光交换网络的核心光交换器件,是近年国内外光子集成研究领域闪耀的“明星”,而光开关元件是其基础。光开关是一种控制网络中的光路开关及状态切换的器件,其中电光开关响应速度高、功耗低,硅光子器件尺寸较小,与现有的CMOS工艺兼容,可以与集成电路进行混合集成。因此,硅基电光开关有构成大规模集成光路的潜力,能够满足日益增长的高密度集成的需求。随着对集成光路领域研究的不断深入,
学位
<正>组织人事工作现状目前在大企业中,组织人事工作所能发挥的作用越发明显,因此也越来越受到重视。而随着市场经济的发展,在各方面因素的影响下,组织人事工作也面临更多困难,反映出更多的弊端和问题。首先,很多组织人员缺少铁路运输部门发展的理论依据。很多人认为铁路运输行业的发展拥有长期稳定性,过于依赖行业和岗位,因此缺乏工作积极性。管理层和基层人员之间缺乏沟通,甚至会出现矛盾和怨言等。
期刊
立德树人思想融入小学班级文化建设之中,既有助于形成良好的班集体,为学生创设健康向上的成长环境,又有助于落实立德树人的根本任务,促进学生德、智、体、美、劳全面发展。本文首先分析立德树人思想的基本内涵,其次浅谈将其运用于小学班级文化建设中的现实意义,最后详细论述如何有效地将立德树人思想运用于小学班级文化建设之中,并发挥其积极育人价值。
期刊
承德市是京津冀地区重要的生态涵养区和生态屏障城市。随着经济的不断发展,大量污染物排放导致承德市出现多次以大气细颗粒物(PM2.5)为首要污染物的重污染灰霾天气。为研究承德市PM2.5中碳质组分和多环芳烃(PAHs)的季节变化规律及来源,于2019年1、4、7和10月采集大气PM2.5样品,使用热光碳分析仪、气相色谱三重四极杆质谱仪测定了碳质组分和PAHs的浓度。首先利用时序变动分析了碳质组分和PA
学位
随着科技的飞速发展和不断进步,人们对于信息传输的容量和信息传输速率的要求也在不断提高。全球光通信中数据流量的不断增长促使各国的研究人员来寻求新的技术和方案来提高光纤通信系统的容量。因为香农极限的限制,单模光纤所能容纳的信息容量正在逐步逼近其理论极限,基于少模光纤的模分复用系统作为解决单模光纤容量限制的最新方案受到了广泛的关注与研究。模分复用技术是通过独立的信道来传输空间模式,具有传输信息容量大、能
学位
班级文化不仅是班级建设的重要内容,而且也是学校文化建设的基础。新时代的中小学班级文化建设,通过认真总结、系统思考、深入理解进行探索,让班级文化服务于班级的建设和发展,让班级文化将硬管理和软建设有机融合,让班级文化体现师生的个性风格和优势。
会议
面向智能可穿戴电子技术,柔性传感器因可以完美适应非平整的皮肤及衣物表面又不阻碍人体活动,传感信号迅速准确,操作简单快捷等优势,在人体医疗、运动识别、人机交互等领域具有巨大应用潜力。作为智能可穿戴式柔性传感器的主要分支,柔性应变传感器近年来备受人们关注。大多数传统的应变传感器是基于金属材料和半导体材料,由于金属应变传感器的灵敏度仅仅依赖于金属材料的几何效应,传感器的灵敏度(Gauge Factor:
学位
本研究在新冠疫情防控与乡村振兴的重大科技需求下,构建了水、土环境样本的富集浓缩方法,同时以Phi6噬菌体作为模式包膜病毒对污水中包膜病毒的离心超滤富集浓缩方法进行了研究,随后建立了环境样本的多终点毒性测试方法,基于这些方法对黄河流域典型村镇水环境样本的多终点毒性及水质进行了测试分析,并对高风险样本开展了致毒物的非靶向筛查。主要研究结果如下:(1)构建了水样本的固相萃取富集浓缩方法与土壤样本的加速溶
学位
短程硝化反硝化工艺作为一种高效、经济、实用的氮素污染治理新型技术,对实现碳减排和碳中和、减少物耗和能耗、降低污泥产量、提升污水处理效率等具有重要意义。在目前的研究中,实现污水的稳定短程硝化需要一系列较为严苛的控制条件对氨氧化细菌(AOB)和亚硝酸盐氧化细菌(NOB)进行差异性的抑制,如低溶解氧、短污泥龄、游离氨(FA)和游离亚硝酸(FNA)等。然而上述调控策略运用于实际主流污水生物脱氮时仍具有一定
学位
近年来,由于对快速有效传输特性的需求,光通信技术受到了广泛的关注,并得到了迅速的发展。在追求更好的光传输性能的同时,也需要对信号进行处理,这使得各类光学器件得到了广泛的应用。在光学器件中,平面光波导器件体型较小,内部结构较为贴合,集成工艺也较为简单,能在短距离通信场景中发挥其重大作用。在该领域,使用有机材料和无机材料各有利弊——有机材料易于电光、热光调制,无机材料则相对损耗更低,但由二者混合制成的
学位