机器人深度强化学习控制方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:opcs2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种以试错机制与环境进行交互,通过最大化累计奖赏的方式来优化策略的机器学习方法,在解决无模型的控制和决策问题上具有很好的效果。近年来,随着深度学习的快速发展和计算能力的提升,研究人员将深度神经网络强大的特征提取和表示能力与强化学习的决策和控制能力相结合,提出了深度强化学习方法。这类算法给机器人控制领域的动力学建模、环境感知以及多机器人协同等难题带来了新的解决思路。基于深度强化学习的控制方法不需要事先建立被控机器人的精确数学模型,而是直接在与被控机器人的交互过程中对控制策略进行在线优化。通过训练深度神经网络,可以在高维的原始传感数据中提取关键信息并用于决策和控制,最终构成从原始传感数据到系统控制输入的端到端的机器人学习与控制方法。在多机器人协同问题上使用多智能体强化学习算法能够使多个机器人在相互通信和与外界环境交互中构建协同控制策略,从而合作完成任务。尽管基于强化学习的控制方法在理论上具有上述种种优势,但是在实际的机器人控制应用中则会面临各种问题。例如在学习过程中如何保证被控对象的安全稳定;如何根据任务需求设计合理的算法结构;如何在有限的通信资源下构建合作策略等等。本文在现有的深度强化学习算法基础上,面向移动机器人的运动控制、导航避障以及协同合作三方面的问题,结合实际应用场景展开研究,为基于深度强化学习的机器人控制问题提供了一定的理论指导和技术支撑。本文的主要贡献如下:(1)提出了一种带积分补偿的确定性策略梯度算法,解决了四旋翼无人机在精确动力学模型未知情况下的运动控制问题。针对四旋翼无人机欠驱动、非线性、不稳定的动态特性,以及精确运动学模型难以构建的问题,基于深度确定性策略梯度算法,使用深度神经网络构建从无人机状态参数到电机控制量之间的映射,并根据设计的奖励函数对网络参数进行更新。针对原始深度强化学习算法在控制应用中被控状态存在稳态误差问题,引入了积分补偿机制,并改进了训练算法,通过迭代学习最终可以获得精度更高的控制策略。另外,对于深度强化学习的控制方法在实际应用中的安全性问题,提出了一种两段式训练算法。通过离线阶段的训练得到鲁棒性较强的控制器,然后通过在线阶段在离线控制器的基础上对参数进行微调,进一步提高控制器的性能。在高精度四旋翼仿真环境中的实验结果表明提出的深度强化学习方法在没有四旋翼精确的动态模型的情况下,通过提出的学习算法能够获得动态性能良好且对各类干扰具有较强鲁棒性的运动控制器。(2)提出了一种模块化深度强化学习算法,解决了地面移动机器人在复杂未知环境下使用二维激光雷达躲避移动障碍物并前往指定位置的问题。现有的机器人避障和路径规划方法通常在已知环境下进行,而在未知或动态的环境下则存在较大难度。首先,基于深度Q-学习提出了一种避障控制方法。针对环境中移动物体的激光雷达信息特征提取问题,提出了一种新型的双流Q网络结构,将移动物体的运动信息融合到机器人的观测状态中,实现了机器人对动态环境更加全面的观测。然后,分别应对局部避障问题和全局导航问题,设计了独立的强化学习模块并进行预训练,通过引入动作调度机制,将预训练得到的导航和避障策略进行在线融合。模拟环境中的实验结果表明提出的导航和避障策略相比于常规的深度强化学习方法和传统的机器人控制方法在学习速率和导航避障效果方面均具有明显优势。(3)提出了一种基于多智能体强化学习的多机器人协同控制方法,解决了多个移动机器人对单个目标进行合作围捕的问题。在单个智能体深度强化学习算法的基础之上,引入了基于学习的通信机制和集中式训练-分布式执行的算法结构,使每个追捕机器人在与其队友和目标的交互过程中进行在线学习。该方法可以在外部环境信息和追逃双方动态信息均未知的情况下解决多追捕者合作追捕的问题。针对现有的多智能体强化学习算法中使用广播通信方式带来的通信和计算量大、实现成本高等问题,设计了简单的环形拓扑和主从式线形拓扑两种通信网络结构,并给出了相应的多智能体强化学习训练算法。实验结果表明了所提出的方法在更少的通信量和计算量的前提下,获得了比其他多种多智能体强化学习方法更好的围捕效果。(4)提出了一套用于无人机-无人艇协同海上侦察任务的图像处理和运动控制方法。首先给出了一种基于深度卷积神经网络和空间softmax的图像目标定位和角度估计算法,可以通过无人机航拍图像获取海上无人艇和侦察目标的位置和姿态。然后,针对海浪干扰下的无人艇控制问题,引入了基于双延迟深度确定性策略梯度的深度强化学习算法,通过模拟训练获得高效的控制策略,使得无人艇能够根据无人机提供的位置和姿态信息,快速接近海上目标并在其周围进行侦察。最后,针对无人机在风浪干扰下的自主着艇问题,在第一项研究内容提出的四旋翼无人机控制方法的基础上,提出了一套无人机安全着艇控制流程,使无人机在面临干扰和风险时能够及时脱离危险状态,保障着艇安全。通过无人机艇协同仿真平台上的测试,验证了提出了无人机艇协同侦察和自主着艇控制方法的有效性和安全性。
其他文献
第一部分外周血ACE水平、活性及I/D基因多态性与2型糖尿病轻度认知功能障碍的相关性研究背景:血管紧张素转换酶(angiotensin converting enzyme,ACE)是肾素-血管紧张素系统(reninangiotensin system,RAS)的关键酶,与2型糖尿病(Type 2 Diabetes Mellitus,T2DM)及阿尔茨海默病(Alzheimer’s disease,
局域表面等离激元共振(LSPR)利用等离激元纳米结构将远场光的能量压缩到亚波长范围的空间,纳米结构附近的电磁场得到极大的增强,尤其是当两个金属纳米颗粒靠的很近时,由于等离激元耦合效应,纳米间隙处的电磁场得到数百倍增强,即所谓的“热点”(“hot spots”)效应。由于LSPR的电磁场增强效应,等离激元纳米结构附近的分子的拉曼散射信号强度会被极大地提高,即表面增强拉曼散射(SERS)。SERS光谱
研究背景轻度认知损害(mild cognitive impairment,MCI)是痴呆的高危人群,尤其遗忘型轻度认知损害(amnestic mild cognitive impairment,aMCI)主要进展为阿尔茨海默病(Alzheimer’s disease,AD),因此aMCI阶段被认为是AD前期的重要阶段,对该阶段患者认知功能损害机制的研究有助于AD早期诊治。情节记忆损害是aMCI的核
森林防火是保障生命财产安全的重要课题,而烟火产生的早期阶段是火灾预警的重要阶段,对烟的检测能更早的发现火灾警情并进行预防,因此,本课题重点研究白天可见光环境下森林火灾发生初期的森林烟火检测。近年来,基于视频图像森林烟火检测的研究受到越来越多专家学者的关注。与室内烟火检测不同,森林具有距离远,光照条件多变,受天气干扰大等复杂场景因素,在实际检测中需要克服这些复杂环境。本文围绕基于视频图像的森林烟火检
软物质是指处于固体和理想流体之间的物质。胶体、高分子、蛋白质、脱氧核糖核酸(deoxyribonucleic acid,DNA)、液晶等都可以归纳入软物质中。随着科学技术的进步与发展,软物质的应用越来越广泛,如封装材料、清洁剂、粘合剂、化妆品、食品添加剂、润滑剂和轮胎橡胶等。在生物医学工程领域中,软物质也有重要的应用,如应用于组织和器官的替代、缺陷器官的修复、血液的存储净化和药物的运输控制等。近些
瘫痪病人肢体运动功能的恢复是目前全世界重点关注的研究领域和亟待解决的医学难题。用“微电子肌电桥”的方法对瘫痪肢体进行功能电刺激(Functional Electrical Stimulation,FES),可以促进瘫痪肢体运动协调功能的恢复。通过设计专用的微电子电路,可以从健康人体采集自然的肌电信号,并通过无线收发的模式传递到瘫痪肢体,控制其进行有序的活化运动。这因此属于一种电路与系统学科与生物医
自主水下航行器(AUV)作为探测、开发和利用海洋的高效率水下工作平台,在军事上和民用上都得到了广泛的应用。在复杂海洋环境中,精确和可靠的导航定位作为AUV准确抵达作业点和安全返回的关键技术,是评判AUV发展成熟度和工程实用化的标准之一。本文以AUV惯性基初始对准及组合导航信息融合为主题,主要围绕AUV多源导航系统建模,动基座自对准,动基座传递对准,大失准角下快速对准,组合导航系统信息融合开展相关研
偏振态均匀分布的标量光场与各向同性非线性光学克尔介质相互作用的过程中,由于偏振态比较单一,在通常情况下,非线性光学材料所激发的三阶非线性效应的大小主要依赖于入射光场强度的变化。近年来,具有空间偏振态非均匀分布的矢量光场成了研究热点。具有偏振结构的矢量光场与非线性克尔介质作用过程中,三阶非线性折射率受到入射光场的强度与偏振态双重调制。因而,具有偏振结构的光场与物质相互作用将会激发许多新颖的非线性光学
学位
为适应持续增长的无线业务需求,第六代移动通信系统(6G,6th Generation Mobile Communication Systems)需支持太比特每秒的高速数据传输.进一步增大天线阵列规模、拓展传输带宽仍是实现6G愿景的关键技术手段。在基于大阵列与大带宽的无线接收机的设计与实现中,若采用传统纯数字、高精度硬件架构,则面临产生海量基带数据、硬件成本高昂、系统功耗以及计算复杂度巨大等实际挑战