基于深度强化学习的四足机器人多步态生成策略研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:zhuxuchen0822
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
依托于新一轮人工智能领域的关键技术突破,四足机器人运动控制技术与人工智能的深度融合逐渐展现出广泛的实际意义与应用价值。为了解决深度强化学习实现四足机器人运动控制仍然存在的相关难点,本文设计了能够实现四足机器人自主调整步态以适应仿真地形与现实复杂地形的深度强化学习运动控制器。本文研究内容如下:1、通过D-H法分析了十二自由度四足机器人的运动学。针对四足机器人的动力学映射关系不易寻找的问题,设计基于中枢模式发生器的四足机器人步态生成方式。2、设计了深度强化学习训练算法应用于四足机器人运动控制。针对复杂地形的运动控制任务中,强化学习训练出现的探索空间过大,数据收集较慢,训练收敛差的问题,设计了一种结合中枢模式发生器与分布式近端策略优化算法的深度强化学习训练算法。算法通过多个子进程同时收集数据,主进程进行策略更新的方式既能够提高数据收集效率,又能够借助近端策略优化算法本身的优势,使得训练的策略效果能够稳定得到提升。训练过程中中枢模式发生器的引入是作为步态的先验知识,不仅解决了十二自由度四足机器人步态先验知识获取较难的问题,最重要的是能够有效降低强化学习策略的探索空间,加速训练的收敛。3、为了拟合现实世界的多样性,在仿真中搭建了一系列复杂地形,包括崎岖地形,不同高度的斜坡与台阶,以及多类地形的组合地形,针对不同地形设计了相应的奖励函数并且进行了四足机器人的训练实验,实验证明通过本文的算法训练,四足机器人能够自主调整步态适应复杂地形,包括未经训练的测试地形。4、针对强化学习策略迁移到实际四足机器人存在无法避免的模型差异以及策略对现实环境的鲁棒性差等难点,设计了能够提高强化学习策略鲁棒性的方法,包括采用高性能处理器降低控制延迟,在训练时将地形参数随机化,自适应模型参数,缩小状态空间等方法。然后介绍了深度强化学习策略的具体迁移步骤与流程,最后成功在崎岖,台阶,斜坡等现实复杂地形中完成了强化学习策略到实际四足机器人硬件平台的迁移实验。
其他文献
强化学习是机器学习领域的一项重要研究方向,近年来与深度学习融合所组成的深度强化学习发展迅速,在多个领域取得了令人振奋的研究成果。其中,策略梯度算法可以被应用于连续动作空间问题的求解,在控制领域具有极大的研究前景。为了平衡强化学习中的探索与开发之间的矛盾,提高策略梯度算法的探索能力,本文课题在“行动器-评判器”框架下,基于最大熵原理,对近端策略优化算法进行了改进。通过对策略网络的目标函数引入熵正则化
学位
报警阈值优化是工业过程智能报警管理的重要内容。由于受到原料及产品调度策略的影响,工业过程会出现多操作工况运行,这对工业过程多变量报警阈值优化提出了挑战。针对此问题论文进行了深入的研究,提出了一种基于流数据聚类的工业过程多工况报警阈值自适应优化方法,它能够在在工业过程出现多工况切换时对多变量报警阈值进行自适应优化,同时,当工业过程监控人因环境发生改变时,也能够对多变量报警阈值进行自适应调整。以下为论
学位
由于大规模工业系统流程复杂,厂级过程监测面临着很大挑战。传感器在工业过程中的应用有助于数据驱动监测方案的实施。传统的集中式方法受制于数据计算量大、建模困难,在厂级过程监测中表现不佳。分布式方法作为一种可行的改善方案,有助于降低建模复杂度,提高处理速度,增强监测性能。通过合适的过程分解可以降低单元之间相互影响,这对保障分布式方法的监测性能非常重要。本文对基于典型相关分析(Canonical Corr
学位
图像去噪问题作为图像处理研究的核心问题,由于噪声分布的复杂性和多样性,以及研究本身的局限性,使得图像去噪问题研究的热度和进展不如识别、分类等其他图像问题。然而,图像去噪问题却具有较高的研究价值,作为其他图像分析任务的基石,获取一幅干净的图像是提取图像信息的关键。依据噪声和图像信息的关系,噪声干扰的存在形式可分为加性噪声和乘性噪声,因此本研究针对普遍存在的加性高斯噪声和乘性斑点噪声,通过深度学习模型
学位
过程监测可以保证工业过程的安全运行和产品质量,受到了学者们的广泛关注。而其中,基于多元统计的过程监测凭借着对过程数据优越的降维和分析能力近年来得到了广泛的应用,现已成为过程监测领域一种常见的应用方法。为了实现关键性能指标(KPI)监测的算法,偏最小二乘(PLS)是多元统计过程监测方法中一种主流的算法。PLS的主要思想是提取过程变量和KPI变量的公共得分,进而最大化两类变量线性变换之间的相关性。然而
学位
植物药材中的有效成分在药品、食品中广泛使用,有效成分的提取有利于植物药材最大程度的利用,因此实用性强且发展前景广阔。在超声波提取药材有效成分的过程中,工艺参数的取值对有效成分提取率有着显著的影响,合适的工艺参数有利于最大效率地提取植物药材的有效成分。如何选择合适的工艺参数,是有效成分提取面临的一个重要问题。目前,智能化的方法成为了工艺参数优化的一大解决方法,通过构建工艺参数的预测模型,在模型基础上
学位
随着快递行业的迅速发展,由机器人取代人工进行操作的智能仓储已经成为现代仓储行业发展的主流。多机运动规划是智能仓储系统需要解决的关键问题。以往的研究假定机器人的运动是确定性的,忽略了现实生活中存在的噪声、摩擦、不准确的控制输入等随机干扰对机器人造成的影响,难以应用到实际机器人的控制中,本文在规划多机运动时考虑这种随机行为,借助概率学理论,建立概率运动模型,针对多机器人系统中若干具体的运动规划问题,设
学位
蒸汽再压缩热泵隔离壁精馏塔(VRHP-DWDC)是一项有着广阔应用前景的精馏技术。目前关于蒸汽再压缩热泵(VRHP)的研究方兴未艾,许多研究人员已经揭示了VRHP在不同分离过程中的应用所带来的显著经济效益和稳态性能的改善。然而,隔离壁精馏塔的双塔和多个分离段的结构使得蒸汽再压缩热泵的应用成为了一项具有极大的复杂性和繁琐性的任务。除此以外,VRHP-DWDC在处理宽沸点三元混合物时不可避免地面对较大
学位
肉类市场存在一些弊端,如肉类的掺假问题。一些不法商家将价格昂贵的肉中掺入廉价的肉,例如通过在牛肉中掺入猪肉来牟取暴利。这不仅造成了经济损失,而且对具有宗教信仰的人极不友好。目前用于肉类掺假检测的技术例如基于生物学和基于化学的技术存在检测成本昂贵,检测时间过长等问题,为实际应用带来不便。电子鼻是一种用于测量挥发性气体化学性质的化学测量系统,因其速度快、可靠性高、操作简单、成本相对较低而被广泛应用于食
学位
阅读教学属于语言类教学中的核心构成部分,一直以来都是教育教学改革与研究的热点课题,备受广大教育工作者的关注。在高中英语课程教学中,阅读教学十分重要。为改善阅读教学质量,部分教师从主题语境视域切入,取得了不错的效果。作者针对主题语境视域下的高中英语阅读教学做了深入分析与探讨,并提出部分个人建议。
期刊