基于SoC和增强学习的平面双足行走控制研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:topccb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双足机器人步行运动控制是机器人研究领域中最为复杂的,一直以来都受到广大机器人研究者的广泛关注。传统机器人控制算法需要对机器人建立精确的数学建模,并且算法的鲁棒性差;而实体样机结构复杂难以进行精确建模,影响最终的控制效果。近年来人工智能得到高速发展,大量学者使用增强学习实现机器人的步行控制,但现有基于增强学习的机器人步行控制通常需要引入参考步态,传统增强学习存在难以实现动作连续化和状态连续化的问题。针对以上问题,本文将搭建基于异步优势评价动作-评价(Asynchronous Advantage Actor-Critic,A3C)算法的机器人步行学习系统,无需引入参考步态。并且针对将训练结果用于实体样机验证时,样机处理系统计算能力弱,系统实时性差,影响训练效果的问题,本文在片上系统(System on Chip,SoC)上对所训练的机器人步行控制神经网络进行加速。本文主要研究工作为:1.分析最简被动双足机器人的动力学模型,讨论脉冲推力对最简双足机器人步行运动的影响,并进行数值仿真,针对其不足提出髋关节驱动和脉冲推力作用下的带伸缩膝双足机器人模型。2.在仿真环境V-REP下搭建改进后的双足机器人模型,并搭建基于增强学习A3C算法的平面双足机器人步态学习系统。3.结合工程调试经验对所设计控制器的状态观测向量和动作执行向量作进一步优化调整,对比不同的学习网络模型的训练效果;通过构建与奖励值相关的更新周期函数,进一步提高训练后期的稳定性,最终经过训练的神经网络能控制平面双足机器人在仿真环境下以1.5km h的速度稳定行走5500多步。4.在SoC上设计一种面向复杂神经网络的加速器设计及其调度机制,对隐含层间的计算重新调度排列,消除数据的依赖和冲突,采用流水化设计思想对系统优化。采用多模块化的设计思想,将隐含层的复杂计算划分为多个子模块,一定程度上消除了存储墙问题,对加速器作进一步优化,提高系统的并行计算能力。最终对在SoC上对训练后的机器人步行控制神经网络实现了加速,提高了机器人控制系统的实时性,为后期训练结果在实体样机上的验证奠定基础。
其他文献
研究背景与目的:Lasp1是肌动蛋白结合蛋白,可以调控细胞骨架的活动和细胞迁移。Lasp1来自于乳腺癌的c DNA文库,同时,该蛋白在肝癌,胃癌,胰腺癌,乳腺癌,前列腺癌,食管癌等肿瘤
数学的重要性众所周知,不仅可以赋予我们学术上的知识,还能赋予我们生活上的能力,为了提高数学教育的效率,数困生的问题成为国内外研究者重点研究问题,于是从医学、社会学、环境学等多个角度对数困生展开了研究,得出了许多有价值的研究成果。但是从心理层面研究特定年级数困生的研究相对较少,基于该背景之下,本研究采取了问卷调查、个人访谈、个案研究的研究方法研究了如下几个问题:1、预初年级数困生存在哪些心理问题?2
随着社会生活水平的不断提高,人们对农产品的品质要求也越来越高,因此急需一种高效、便捷、客观的农产品品质检测方法。电子舌智能检测系统作为一种新型的检测技术,结合模式
碳纳米管是在1991年由Iijima博士发现的一种一维纳米材料,其结构为无缝柱状形态,具有非常高的纵横比,径向尺寸是纳米级,轴向尺寸是微米级,长径比达到102~107。按照片层石墨烯
对于一个环R,如果它的每个单左(右)R-模是平坦的,那么就称R为左(右)SF-环。众所周知,正则环既是左SF-环又是右SF-环。在这篇论文中,我们研究了 SF-环是否是正则环的条件以及正则环与SF-环的等价刻画和性质。在第二章中,我们考察了 GW-理想、W-理想和弱左(右)理想在研究SF-环正则性方面的作用。我们证明了尽管这些弱化的理想在推广理想的概念上是不同的,但在SF-环正则性的研究上它们起的
包分类算法一直是当今计算机网络中研究的热点问题,作为计算机网络中交换设备转发数据的依据,其算法性能影响着网络中数据的转发速率。随着互联网的蓬勃发展,网络中的数据流
钢筋混凝土结构在我国建筑、交通基础设施中发挥着不可替代的作用。由于组成钢筋混凝土结构的混凝土和钢筋本身均为非线性材料,且大多数混凝土结构都是带裂缝工作的,另外既有的混凝土结构由于内部损伤的累积、徐变收缩、老化、环境温度等的影响,其非线性更加突出。本文参照杆系结构有限元分析理论,以纤维梁模型为基础,提出了基于十三自由度纤维梁模型的混凝土结构非线性分析理论。以混凝土箱梁为例,对其在环境与荷载耦合作用下
随着液晶显示技术向高清、超薄方向快速发展,对液晶显示屏玻璃基板的缺陷检测要求越来越高;为了降低成本,生产过程中单块玻璃基板尺寸也越来越大。在此背景下,传统的接触式支
在潜变量模型的研究中,如因子分析模型、潜在特质模型,通常只考虑观察变量与潜变量的线性组合之间的关系。然而,潜变量的非线性项也会对观察变量有影响。在带有非线性效应的广义潜变量模型的研究中,常采用混合集成最大化算法计算参数的完全信息最大似然(FIML)估计,用三明治估计和bootstrap计算参数估计的标准误,最后通过多重插补法计算因子得分。基于上面的方法,本文探究带有非线性效应的潜在特质模型,对非线
背景:胃癌在世界尤其是我国的确诊率和死亡率仍然居高不下,严重威胁了民众的身体健康。胃癌发生发展和治疗过程中面临各种应激,包括营养缺乏、内质网应激、低氧和氧化应激等,