基于深度强化学习的双臂协作控制策略研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:slientlamb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器人自问世以来,在全球范围内发展迅速,并且应用范围也不断扩大。与单臂机器人相比,双臂协作机器人的灵活性更高、负载能力更强,在医疗、服务业、工业等领域能发挥出重要作用。传统的双臂机器人协作控制策略多基于精确的数学模型,完成对双臂机器人的协调控制。这种控制策略自适应性较差,任务或环境发生变化后,机械臂的控制效果会变差甚至无法完成任务。近年来,深度强化学习发展迅速,能够在无数学模型的情况下实现高维原始输入到输出的端到端控制,在机器人智能控制方面取得了瞩目的成果。本文旨在使用深度强化学习为双臂机器人设计协调控制策略,使之能够完成协作任务。
  本文首先阐述了本课题的研究背景和意义,介绍了国内外双臂机器人的发展情况以及双臂协同控制策略的研究现状。其次,对强化学习问题的数学描述进行了说明,对几类经典强化学习算法进行了简要介绍。然后为双臂机器人协调控制设计控制策略,为双臂机器人的每条机械臂各自分配一个智能体,将其看作两个智能体进行协同序列决策的过程。使用多智能体深度确定性策略梯度算法的“奖励协同,惩罚竞争”的思想训练智能体完成协作任务,使用事后经验回放算法解决机械臂稀疏奖励的问题,将两个算法相结合设计了双智能体深度确定性策略梯度算法。基于MuJoCo(Multi-Joint dynamics with Contact)物理引擎,以物理机器人为原型搭建了双臂机器人仿真平台。在仿真环境中对双智能体深度确定性策略梯度算法进行训练,结果证明算法能够控制双臂机器人避免碰撞,完成简单的协作任务。
  双臂机器人协作抓取任务是多步顺序决策任务,需要在一段时间内连续执行多个步骤,其中任何一步出现问题都会导致任务的失败。针对双臂机器人协作抓取任务实现不理想的问题,本文在DADDPG算法的基础上提出两个方向的改进方法。一个方向是使用模仿学习为强化学习提供专家数据,为DADDPG算法加入向演示示例学习的模块,为强化学习提供探索的指南。同时将行为克隆损失作为强化学习算法的辅助损失,当智能体的策略表现效果优于演示示例时,舍弃演示示例的影响,优化控制效果。另一个方向是将目标检测技术与DADDPG算法进行融合,以目标检测方法获得的目标物分布区域为先验经验,为强化学习算法指定工作区域,缩小算法初期的探索空间,进而提高探索效率。在仿真环境中对改进的两个算法进行实验,结果显示双臂机器人能够完成协作抓取任务,验证了算法的有效性。
其他文献
近年来,随着人工智能的不断发展以及人们对公共场合安全问题的重视,行人再识别任务成为人工智能领域研究的热点。行人再识别任务,是指判断从多个视野不重叠的摄像头出现的行人图像是否为同一行人,主要通过行人的底层视觉特征与高层不变属性特征进行判断,而不需要行人的主观配合,有着重大的研究价值。另一方面,在海量数据中准确高速的找出目标人物并辨别身份对安防等任务有着重要的应用价值,同时行人再识别的研究对于相册聚类
相比于在平坦地面具有更好运动效果的轮式和履带式机器人,腿足式机器人能够适应更复杂的地形,进行更灵活的姿态控制,有效跨过或躲避障碍物,能够应用到复杂环境的探索、搜救、运输等多方面领域中。四足机器人凭借相对简单的结构、灵活的运动效果、出色的稳定性能和优秀的动态能力等优势,从腿足式机器人中脱颖而出。传统的四足机器人控制方法一般会采用模块化控制器,但模块化控制器设计难度较大,并且需要耗费大量时间进行参数调
智能驾驶汽车通过多种传感器获取信号,感知车辆周围环境以及可能发生的危险,从而做出驾驶决策。与其他信号相比,视频信号包含丰富的语义信息,并且采集设备成本低廉,采集过程方便;然而视频信号也具有背景复杂、运动模糊、目标遮挡等问题,给交通场景理解带来特殊的挑战。本文针对交通场景风险估计问题,提出了对交通风险等级划分的原则,并构建了一种对行车视频中交通场景的风险性进行判断的方法。本文首先利用YOLO算法与D
学位
语音是人类传递信息最重要的途径之一,但现实中的语音信号经常被其他人声混杂或被环境噪声干扰,因此语音分离作为提取混合语音信号中独立语音源的任务,一直以来都是信号处理领域重要的研究方向之一。语音分离任务来源于“鸡尾酒会问题”,常被用作其他语音应用的前置预处理操作,对自动语音识别、助听器开发与人机交互等应用有着重要作用。传统上的语音分离技术多数着眼于单模态语音信号的处理,但随着多媒体应用与信息技术的发展
学位
在社会需求增长和技术发展的持续推动下,移动机器人正逐步走入家庭,为用户提供家政服务。环境建模作为机器人执行家政作业的基础,综合了环境感知、理解和表征等核心技术。然而,机器人作业在开放、动态、非结构化的家庭环境中,仍面临着导航安全性、任务执行高效性、长期自治性等多方面的挑战。如何对复杂家庭环境建立准确的模型,以支持机器人安全、高效、长期自主地执行家政作业,是推动移动机器人进入家庭和实现机器人智能化服
分类是数据挖掘和机器学习领域中重要的研究分支,其目的是根据特征所描述的信息将每个实例准确划分到不同的组中。但随着所收集数据集维度的急剧增加,大量与分类任务不相干和冗余的特征信息被添加到数据集中,这些无关特征信息不仅会增加模型构建的复杂度,还会降低机器学习算法的性能,甚至造成“维数灾难”和“过拟合”问题。特征选择是一种有效的数据预处理技术,能够有效去除与目标任务不相干和冗余的特征信息,降低机器学习算
学位
抑郁症作为一种精神障碍,以显著而持久的情绪低落、兴趣减退和思维迟缓等为主要临床症状,病情严重者会导致自残乃至自杀。近年来,随着患者数量的急剧增加和世界各地频频报告的自杀事件,抑郁症已逐渐为人们所熟知,而其带来的危害也日渐升高。据世界卫生组织2017年统计,全球约有3.22亿抑郁症患者,抑郁症已成为当今社会的首要致残原因。此外,抑郁症还会给家庭和社会带来巨大的经济负担,是导致全球疾病负担的一个重大因
学位
随着科学技术的日新月异,人们对大自然的认识不断深入,分形和分数阶系统已然成为当下的理论热点和技术前沿,是诸多领域特别是在交叉学科中对各类非线性过程和反常现象进行建模、刻画、分析和控制的有力工具,吸引着国内外众多学者的持续关注.一方面,以Julia集为代表的分形集直观地表征着系统状态的某些渐近性质,对其的分析和估计可以帮助人们更好地理解和把握系统的复杂性,而系统的某些性态需求也可以通过控制其Juli
学位
学位