基于深度强化学习的机器人路径规划算法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:thiscf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
路径规划是机器人研究中较为基础和关键的方向,近年来深度强化学习在机器人控制方面取得了巨大的成功,该方法不需要控制对象模型,具有很强的环境适应性和自学习能力,得到了广泛的关注。随着任务的复杂化和多样化,单机器人已经不能满足这类场景的需求,多机器人系统通过各单位协同能够处理更复杂的任务,而多机器人编队作为其重要的研究方向也成为一个研究热点。为了在复杂场景下更好地完成任务,本文将全局路径规划算法和局部路径规划算法进行结合,研究基于深度强化学习的路径规划算法,在此基础上进一步研究多机器人编队控制算法,并在基于ROS平台的轮式机器人上进行实验验证。首先,针对传统跳点搜索(JPS)算法没有考虑机器人半径和实际控制效果的问题,提出了基于改进JPS算法的全局路径规划算法。根据机器人半径对原始地图的障碍物栅格进行扩张,避免规划出的路径紧贴障碍;在评价函数中使用路径长度和转弯角度作为代价值,并使用时间统一计算,以找出一条转折点较少的路径;在找出路径之后通过平滑算法进一步优化,得到更有利于机器人控制的路径。其次,研究了基于深度强化学习的局部路径规划算法,提出了改进深度确定性策略梯度(DDPG)算法。为了提高收敛速度,设计了优先级经验池回放机制,选择高优先级的样本数据进行训练;设计与人工势场法结合的奖励函数,解决训练前期探索空间大、容易陷入局部最优的问题。然后,针对多机器人系统建模复杂、求解困难的问题,提出了基于多智能体深度确定性策略梯度(MADDPG)算法的多机器人编队控制算法。通过领航跟随者法构建编队队形;设计了级联控制规则解决原始算法在机器人数量变化时导致重新训练的问题;重新设计了状态空间和奖励函数,将队形约束加入全局奖励函数中进行训练。最后,在Gabebo仿真软件中搭建仿真环境,通过结合改进JPS算法和改进DDPG算法在基于ROS平台的轮式机器人上进行路径规划实验,使用改进MADDPG算法进行多机器人编队实验,验证了算法的有效性。
其他文献
作为建筑业的一线操作者,农民工的职业素质的发展与行业转型息息相关,但鉴于当前农民工临时雇佣的非正式就业形式,导致该群体职业发展慢、城市融入难以及社会保障缺少等各项问题。而建筑业行业面临劳动强度大,机械使用率低,工作环境差等问题,大大阻碍了年轻劳动力的流入,从而导致建筑业农民工群体呈现出“老龄化”趋向,同时因为自身观念、外界资源等各类原因,农民工的劳动力质量一直没有得到显著的提升,而这样的局面加剧了
学位
当前,电子商务发展迅速,平台经济日益繁荣,电商平台代售模式不断优化,这促进了物流行业的繁荣兴盛。制造商为了实现资源优化配置,发展核心业务,选择将产品运输外包给第三方物流运营商,因此,逐渐由平台(E)与制造商(M)组成的传统两层电商供应链(E-供应链)过渡到由平台、制造商和第三方物流运营商(L)组成的三层E-供应链。其中,平台始终占据强势地位,为了充分调动系统其他成员的积极性,有必要设计相应的协调策
学位
随着中小型无人机的快速普及,无人机“黑飞”问题日益严重,给公共安全带来危害,由此引起反无人机技术的兴起。鉴于无人机具有在图像中所占像素点较少,难以提取丰富特征,飞行速度快,易受到复杂背景的干扰等特点,所以对无人机等弱小目标的准确检测和跟踪就比较困难。针对此种问题,本文研究了一种车载激光反无人机检测跟踪控制系统,实现对目标实时准确的检测跟踪。具体工作如下:(1)本文针对“低慢小”目标的检测问题进行难
学位
惯容是一种新兴的振动控制器件,目前已经受到了工业界和学术界的广泛关注,对于结构振动控制领域,惯容的引入也为其发展带来了新的思路,本文研究了一类低复杂度惯容隔振系统在地震激励下的控制效果,并且给出了相应的性能提升设计方法,最后通过仿真实验进行了验证,本文的具体工作和所得成果简要叙述如下:首先,研究了所有只含有一个惯容、一个弹簧、一个阻尼的低复杂度惯容隔震系统安装在多自由度模型的应用问题,给出了低复杂
学位
近年来,人脸识别技术在安全检查、服务机器人和快捷支付等领域的应用愈发广泛。与深度神经网络技术相结合形成的用于服务机器人的人脸识别系统,可用于提高服务机器人与被服务对象的交互,是智能机器人控制领域的研究热点之一。本文基于Ty Ran移动机器人硬件平台,研究了针对局部遮挡人脸的修复算法,并设计了基于人脸检测、人脸修复和人脸识别算法的机器人人脸识别模块,主要完成的工作如下:1)针对正常情况下的人脸识别问
学位
在现代社会中,机械臂被广泛应用于制造业,以代替人力劳动,但是随着生产要求的提高以及生产任务的复杂化,单机械臂很难完成一些复杂任务,例如精细零件装配、重型物体的搬运以及工艺复杂的切削操作,要完成这些比较复杂的任务,需要双机械臂协同工作。本文主要在单机械臂运动规划的基础上,对双机械臂协同运动规划算法进行研究。首先,基于单机械臂运动学分析,建立双臂系统模型。采用D-H方法建立单机械臂的运动学模型,并进行
学位
随着城市轨道交通的快速发展,列车运行安全受到更为普遍的关注。轮对是列车走行部的关键装置,当车辆运行条件变差或者紧急制动时,列车在轨道上产生剧烈地滑动摩擦、冲撞,导致踏面出现擦伤、剥离、划痕等损伤。针对轮对踏面损伤的检测,本文实现一种基于图像的非接触式检测方法,利用深度学习目标检测原理研究踏面损伤识别与定位。主要内容如下:首先,针对轮对踏面损伤的样本数量不足问题,提出了基于数据增强和深度卷积对抗生成
学位
中点箝位型(NPC)三电平并网逆变器在中高功率的并网发电场合中获得了广泛的应用,而电感-电容-电感(LCL)滤波器由于其良好的滤波性能被串接在逆变器和电网之间,但是由于实际中弱电网阻抗的存在,并网逆变器系统的稳定性和动态性能均会受到影响。本文研究解决提高弱电网下的LCL型NPC三电平并网逆变器稳定性及动态性能问题,提出了一种电流控制器和有源阻尼控制器参数设计方法。本文建立了弱电网下LCL型NPC三
学位
随着我国城镇化水平的快速提升,各大城市GDP逐年增加、由农村涌入城市的人口数量逐渐扩大,城市轨道交通作为缓解交通压力的重要交通工具,近年来的需求不断递增,中国地铁建设迎来了蓬勃发展的春天。地铁的施工有其独特的特点,建设投资之大,建设工期之长,施工环境之复杂等等,这些因素是造成城市地铁施工阶段安全生产事故的主要原因,严重影响了工程的建设进度,并给社会带来不利影响。因此,针对于城市地铁项目施工安全管理
学位
近年来,主要军事强国都在加速研制新型空中武器装备,这对防空武器伺服系统的响应速度、控制精度和输出功率等提出了更高的要求。本文针对新型武器伺服系统大功率、高精度、强鲁棒性等需求,设计了一种多电机同步驱动伺服系统。具体内容如下:首先,在对多电机同步驱动伺服系统功能需求进行深入分析的基础上,结合性能指标要求,完成了四电机同步驱动伺服系统总体方案设计,并对关键部件进行了选型。其次,在对单电机控制系统动力学
学位