论文部分内容阅读
同其他类型的地面移动机器人相比,双足机器人具有更好的运动能力,是服务机器人理想的载体,也是最容易融入人们日常生活的机器人类型。准被动双足机器人因低能耗、步态柔顺、拟人等优点,成为双足机器人研究中的热点。然而,由于准被动双足机器人非线性、强耦合、多变量的动力学系统,使其存在行走步态单一、行走稳定性弱、步态控制困难等问题,导致其目前难以实现广泛的应用。行走稳定性作为衡量准被动双足机器人行走运动性能的重要指标,是实现广泛应用的关键。因此,如何控制准被动双足机器人的行走运动,提升准被动双足机器人的行走稳定性成为亟需解决的关键问题。深度强化学习方法作为目前新兴的人工智能技术,拥有强大的感知能力与决策控制能力,对准被动双足机器人的步态控制具有重要研究价值。在本文中,针对准被动双足机器人行走稳定性差、步态控制困难等缺陷,提出基于深度强化学习的准被动双足机器人步态控制方法,本文的主要研究工作如下:首先,通过直腿前向足机器人行走过程的分析,建立前向足机器人混杂动力学模型。在此基础上,引入庞加莱映射法分析机器人的行走稳定性,利用牛顿-拉夫森迭代法获得前向足机器人的不动点,进而分析机器人内外参数对机器人行走稳定性的影响,为后文步态控制方法的研究奠定基础。其次,以提升机器人行走稳定性为目标,结合机器人行走运动特点,建立智能体状态、智能体动作、奖励函数。并基于学习效率与最终学习效果,分别提出基于深度确定性策略梯度算法的机器人步态控制方法与基于近端策略优化算法的机器人步态控制方法,实现固定斜坡场景下机器人行走运动的有效控制。再次,为提升机器人不同斜坡路面的稳定行走能力,增强深度确定性策略梯度算法的学习能力。在深度确定性策略梯度算法的基础上,重新设计算法结构、智能体状态、奖励函数与交互回合过程,提出基于Ape-X DPG的机器人步态控制方法,实现对机器人在不同斜坡路面上稳定行走运动的控制,并通过行走稳定性分析验证Ape-X DPG对机器人行走运动的控制能力。最后,将机器人模型参数作为智能体状态的一部分,赋予深度强化学习对不同机器人模型的自主辨识能力,提出基于深度强化学习的通用步态控制方法,实现对不同机器人在不同斜坡路面上行走运动的控制。在仿真实验中,通过结合双足机器人模型参数的近端策略优化方法,在不同坡度的斜坡上实现对直腿圆弧足机器人、直腿前向足机器人、有膝点足机器人三种不同结构、参数的机器人步态的高效稳定控制,验证了所提方法的有效性。