深度强化学习在移动机器人路径规划中的应用研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:zhuxianwei00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前机器人技术的发展日新月异,其智能化程度已经成为国家科技水平和综合国力的评价标准之一。其中,移动机器人能够代替人类在各种环境下从事复杂的重复性作业,在国防、星球探索、家庭服务等领域应用非常广泛。移动机器人要在未知环境下完成任务,就必须无碰撞的到达目标位置,因此路径规划是移动机器人最重要的一项基本能力。为了使移动机器人在未知环境下直接基于视觉信息自主学习最优动作,本文提出了一种端到端的路径规划算法--基于深度强化学习的移动机器人路径规划算法,使移动机器人学习像人类一样进行路径规划,无需环境地图,只从原始视觉感知中学习最优动作,且中间无需任何人工提取特征和特征匹配过程。本文的主要成果为:(1)研究了基于强化学习的移动机器人路径规划问题。在MATLAB仿真平台下采用基于Q-learning的路径规划算法实现了不同环境下的移动机器人路径规划,包括无障碍物、有简单障碍物和有复杂障碍物三种环境。实验结果验证了基于Q-learning的路径规划算法在未知环境下的自学习能力和自适应性。(2)研究了基于深度强化学习的移动机器人路径规划问题,提出了基于DQN的机器人路径规划算法。由于强化学习是一种“试错”学习方法,在学习过程中会执行大量的错误动作,例如撞到障碍物,为此本文构建了二级模拟验证实验平台。首先,基于DeepMind Lab游戏平台实现了深度强化学习算法在移动机器人路径规划问题上的应用,验证了所提算法的理论可行性;接着,利用ROS和Gazebo平台搭建了具有Turtlebot机器人模型及物理引擎的模拟环境,完成了基于Turtlebot移动机器人的端到端路径规划实验。结果表明基于深度强化学习的移动机器人路径规划算法可以使移动机器人在未知环境下只通过视觉感知自主学习到最优路径,而无需环境先验信息。
其他文献
符号回归是根据一个未知系统输入、输出的观测值,通过进化算法演化出一个能合理描述该系统状态及行为模型的过程。如何提高所建模型的拟合精度,一直是符号回归的研究热点,然而单纯提高模型对训练数据的拟合精度将会导致过拟合。为了使建立的模型既能对训练数据有较高拟合精度,又能对未知数据有较好的预测作用,需要提高符号回归算法的泛化能力。本文对符号回归及其中的过拟合问题进行了研究,主要工作如下:首先,针对现有符号回
高精密、高速数控机床是装备核心产品,而滚珠丝杠进给系统由于其高刚度、高稳定性和高精度的优点,被广泛应用在数控机床领域。随着对加工零件的质量和精度要求的提高,对进给系统动静态性能也有较高的要求。进给系统是一个复杂的机电耦合系统,控制系统性能的优劣同样会影响系统的动态性能。本文从以下几个方面对机床进给系统进行研究。首先,基于集中质量法,建立进给系统集中质量模型,应用拉格朗日能量法建立系统动力学方程;利
在道路交通、网络通信、物流运输、智能导航等领域,随着最短路径问题的出现,必经节点集合的最短路径问题和K短路径问题的发展,必经节点集合的K短路径问题渐渐受到了学者的关注。用户除了考虑路径中必须含有必经节点集合外,还希望获得必经节点集合的次短、次次短等路径,多个可选择的优化路径组成的集合,能够最大程度满足用户需求。针对包含必经节点集合的K短路径问题,需要解决的问题有:(1)初始化的路径中必须含有必经节
毛刺对零件的精度、外观质量、使用寿命、装配精度、使用要求、再加工定位和操作安全等方面产生不良的影响,导致整个机械系统工作性能、可靠性、稳定性大大降低。高压断路器的铜触头部件在机械加工中产生大量毛刺,严重影响其功用,主要体现在:容易引发尖端放电现象,严重加剧铜触头被电弧烧蚀,大大降低介质绝缘强度,影响断路器的遮断能力,必须进行毛刺去除。目前企业采用人工去除的方法,去除一致性差,效率低,而且去除过程的
随着人工智能技术的快速发展,智能机器人开始广泛应用于工业生产、军事作战以及居民生活的方方面面。是否具有同步定位与地图构建的能力是判断移动机器人是否具备自主导航能力的关键条件之一。视觉传感器因其成本低、探测范围宽、信息量大、特征丰富、图像特征易于提取的特点,已被广泛地应用在基于视觉的同步定位与地图构建(Visual-based Simultaneous Localization and Mappin
优化问题普遍存在于控制、网络通信、水利水电、计算机等工程领域,而工程实践问题往往优化模型复杂程度高、求解难度大,具有较严苛的约束,传统的优化算法已不能满足其求解需求。智能优化算法依赖于一个种群,以“生成+检测”的方式依据一定的策略或规则在问题的解空间中随机产生新解,并通过对产生的新解进行评价和比较,使种群逐步趋近于问题的最优解并最终收敛,已经成为求解强约束优化问题的有效方法。因此本文针对强约束优化
在传感器网络的研究中,覆盖是开展一切监测任务的基础。与全向传感器节点不同,有向传感器节点的感知能力受感知角度的限制,使传感器网络的覆盖问题变得复杂。本文围绕有向传感器网络的区域覆盖问题,对感知模型和区域覆盖优化算法进行了讨论和研究。首先,本文在对构成有向传感器网络的节点感知模型分析研究的基础上,改进得到一种多探测点感知模型。在此模型基础上,引入虚拟势场,并重新定义虚拟力下的作用力。使传感器节点在合
近年来世界各地发生的客车着火事故,给社会和乘客都带来了巨大的损失,乘客的生命财产安全存在威胁。目前汽车上的逃生装置多为安全锤砸破车窗玻璃从而逃生。为了解决安全锤的操作弊端,我们设计了一种新型汽车逃生装置,当发生火灾或者恐怖袭击时,系统将汽车车窗玻璃爆裂,使乘客尽快逃生,并且不伤及乘客。本次课题所研究的公共汽车车窗玻璃爆裂控制及监控系统是一个涉及GPRS网络技术、GPS/北斗卫星定位和LORA射频通
柔印属于轻压力印刷,其压力的轻微变化会对印品质量产生重要影响。通常柔印压力的确定主要靠预印、检验印品质量来确定。这种压力确定方式需要消耗一定的人力、物力,且易受人为主观因素的影响。目前BOBST已经研发出一套柔印压力自动预测系统,根据版面信息,能够在贴版环节直接实现开机印刷压力的准确设置。基于此,为了实现柔印压力的预测,本文以陕北人FCI300柔印机为研究对象,研究了版面图文特征对印刷压力的影响;
随着科技的发展,未来的战场环境将越来越复杂多变,单个无人机已无法满足未来战场的需求,多无人机协同恰恰能弥补单机的不足,通过多个无人机之间的相互配合,可以完成更多复杂且艰巨的任务。任务分配和路径规划是无人机协同的两个重要部分组成。任务分配就是用最小的资源代价尽可能多的完成任务的指派,是解决多无人机多任务问题的难点之一;航路规划是在完成任务分配的基础上,找寻从基地出发到各个任务点完成任务并返回基地的最