论文部分内容阅读
机器人自问世以来,在全球范围内发展迅速,并且应用范围也不断扩大。与单臂机器人相比,双臂协作机器人的灵活性更高、负载能力更强,在医疗、服务业、工业等领域能发挥出重要作用。传统的双臂机器人协作控制策略多基于精确的数学模型,完成对双臂机器人的协调控制。这种控制策略自适应性较差,任务或环境发生变化后,机械臂的控制效果会变差甚至无法完成任务。近年来,深度强化学习发展迅速,能够在无数学模型的情况下实现高维原始输入到输出的端到端控制,在机器人智能控制方面取得了瞩目的成果。本文旨在使用深度强化学习为双臂机器人设计协调控制策略,使之能够完成协作任务。
本文首先阐述了本课题的研究背景和意义,介绍了国内外双臂机器人的发展情况以及双臂协同控制策略的研究现状。其次,对强化学习问题的数学描述进行了说明,对几类经典强化学习算法进行了简要介绍。然后为双臂机器人协调控制设计控制策略,为双臂机器人的每条机械臂各自分配一个智能体,将其看作两个智能体进行协同序列决策的过程。使用多智能体深度确定性策略梯度算法的“奖励协同,惩罚竞争”的思想训练智能体完成协作任务,使用事后经验回放算法解决机械臂稀疏奖励的问题,将两个算法相结合设计了双智能体深度确定性策略梯度算法。基于MuJoCo(Multi-Joint dynamics with Contact)物理引擎,以物理机器人为原型搭建了双臂机器人仿真平台。在仿真环境中对双智能体深度确定性策略梯度算法进行训练,结果证明算法能够控制双臂机器人避免碰撞,完成简单的协作任务。
双臂机器人协作抓取任务是多步顺序决策任务,需要在一段时间内连续执行多个步骤,其中任何一步出现问题都会导致任务的失败。针对双臂机器人协作抓取任务实现不理想的问题,本文在DADDPG算法的基础上提出两个方向的改进方法。一个方向是使用模仿学习为强化学习提供专家数据,为DADDPG算法加入向演示示例学习的模块,为强化学习提供探索的指南。同时将行为克隆损失作为强化学习算法的辅助损失,当智能体的策略表现效果优于演示示例时,舍弃演示示例的影响,优化控制效果。另一个方向是将目标检测技术与DADDPG算法进行融合,以目标检测方法获得的目标物分布区域为先验经验,为强化学习算法指定工作区域,缩小算法初期的探索空间,进而提高探索效率。在仿真环境中对改进的两个算法进行实验,结果显示双臂机器人能够完成协作抓取任务,验证了算法的有效性。
本文首先阐述了本课题的研究背景和意义,介绍了国内外双臂机器人的发展情况以及双臂协同控制策略的研究现状。其次,对强化学习问题的数学描述进行了说明,对几类经典强化学习算法进行了简要介绍。然后为双臂机器人协调控制设计控制策略,为双臂机器人的每条机械臂各自分配一个智能体,将其看作两个智能体进行协同序列决策的过程。使用多智能体深度确定性策略梯度算法的“奖励协同,惩罚竞争”的思想训练智能体完成协作任务,使用事后经验回放算法解决机械臂稀疏奖励的问题,将两个算法相结合设计了双智能体深度确定性策略梯度算法。基于MuJoCo(Multi-Joint dynamics with Contact)物理引擎,以物理机器人为原型搭建了双臂机器人仿真平台。在仿真环境中对双智能体深度确定性策略梯度算法进行训练,结果证明算法能够控制双臂机器人避免碰撞,完成简单的协作任务。
双臂机器人协作抓取任务是多步顺序决策任务,需要在一段时间内连续执行多个步骤,其中任何一步出现问题都会导致任务的失败。针对双臂机器人协作抓取任务实现不理想的问题,本文在DADDPG算法的基础上提出两个方向的改进方法。一个方向是使用模仿学习为强化学习提供专家数据,为DADDPG算法加入向演示示例学习的模块,为强化学习提供探索的指南。同时将行为克隆损失作为强化学习算法的辅助损失,当智能体的策略表现效果优于演示示例时,舍弃演示示例的影响,优化控制效果。另一个方向是将目标检测技术与DADDPG算法进行融合,以目标检测方法获得的目标物分布区域为先验经验,为强化学习算法指定工作区域,缩小算法初期的探索空间,进而提高探索效率。在仿真环境中对改进的两个算法进行实验,结果显示双臂机器人能够完成协作抓取任务,验证了算法的有效性。