基于强化学习的移动机器人路径规划研究

被引量 : 0次 | 上传用户:zexuan123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器人技术的发展,机器人已开始应用到未知环境,与已知环境下的移动机器人路径规划研究相比,对于未知环境的探索带来了新的挑战。由于在未知环境下,机器人不具有环境的先验知识,移动机器人在路径规划过程中不可避免的会遇到各式各样的障碍物,因此,研究具有灵活规划和避障功能的移动机器人及其在未知环境下的路径规划具有非常重要的实际意义。本文以移动机器人在未知环境探索中的路径规划为研究背景,利用强化学习算法实现机器人的路径规划。原有的强化学习算法Q-learning算法和Q(λ)算法可以实现移动机器人的路径规划,但是在较大环境和复杂的环境下,这两种算法很难达到理想的效果,其最大的缺陷就是学习时间长、收敛速度慢。为了解决这些问题,本文提出了单链序贯回溯Q-learning算法,在学习过程中建立状态链,通过回溯的思想改善Q-learning学习中数据传递的滞后性,使当前状态的动作决策能够快速的受到后续动作决策的影响,并应用到单个机器人和多个机器人在未知环境下的路径规划中,解决学习速度慢的问题以及机器人的避障和避碰问题,使移动机器人能够快速有效的找到一条最优的路径,并通过仿真实验验证了算法的有效性。文章首先分析了移动机器人路径规划的研究背景和意义,综述了目前移动机器人路径规划技术的国内外研究现状以及存在的主要问题,并简单介绍了本论文的主要内容和章节框架。其次,介绍了移动机器人路径规划技术的主要类型,并对全局的路径规划算法和局部的路径规划算法进行了详细阐述;针对本文采用的强化学习算法,这部分详细介绍了强化学习算法的研究现状和发展趋势以及存在的问题,对强化学习算法的基本概念、原理和方法进行了说明,并描述了该算法在路径规划中的应用。第三,针对目前路径规划领域应用广泛的Q-learning算法和Q(λ)算法学习时间长、收敛速度慢、难以应用到较大较复杂环境的缺陷,提出了利用回溯的思想进行状态数据更新的高性能算法---单链序贯回溯Q-learning算法应用到移动机器人在复杂环境下的路径规划,通过在不同大小不同复杂程度的环境下的实验,验证了该算法的快速收敛性和大环境下的实用性,为移动机器人路径规划问题提供了一种崭新的方法。第四,以多个移动机器人系统为研究对象,利用提出的高性能的强化学习算法,通过机器人之间在不确定环境下的学习策略解决探索过程中的路径规划问题,实现每个机器人的避障和机器人之间的冲突问题,提高到达目标点的效率。最后,对本论文所做工作进行总结,并提出了下一步的研究方向。
其他文献
通过学习可知解析几何与立体几何的解决方法,从而形成空间解析几何,也就是利用空间直角坐标系的构建,通过向量和坐标来充分的对空间的点、面和线实现度量和位置关系的联系探
本文以元杂剧中的风尘女子称谓为主要的研究对象。称谓语是人们在交际中用来表示人与人之间的亲属血缘关系或社会关系,同时可以反映人们的身份、职业、社会地位等的名称。此
加埃塔诺·多尼采蒂(Gaetano Donizetti,1797—1848)是意大利浪漫主义初期歌剧乐派的代表人物,与G·罗西尼、V·贝利尼被合称为意大利歌剧三巨头,他又被称为“天生的作曲家”。多
相容剂的加入可以增加木塑复合材料的综合性能,本文将EVA加入到木塑复合材料中,制备了不同EVA含量的木塑复合材料制品。系统的研究了EVA含量对于木塑复合材料力学性能、表观
配电网是电力系统面向最终用户的关键环节,将IEC61850标准体系应用到智能配电终端,实现配电终端的分布式保护功能,对提高配电网供电可靠性具有重要意义。本课题在分析现有配
椭圆曲线密码学的许多形式有稍微的不同,但所有的形式都依赖于被广泛承认的解决椭圆曲线离散对数问题的困难性上,对应有限域上椭圆曲线的群。研究表明,椭圆曲线密码是目前唯一
随着市场消费对电池质量水平的要求不断提高以及市场竞争更加激烈,高性能干电池生产以及更严格的质量监控越来越被各厂家所重视。同时,随着计算机及电子技术的迅猛发展,以及
钢铁产业是社会发展和国民经济运行的基础性产业,是一个国家经济发展水平与综合国力发展程度的重要标志,对国防、基础设施建设、造船、汽车制造、机械制造、家电生产等行业有
蒋韵在屮国当代文坛是个独特的存在.她作品丰厚,但评论家对她的关注却比较少。她游离于各种文学思潮流派之外,不归属于任何流派,被人认为是一个边缘化的作家,用她6己的话说是一个
2012年5月10日,财政部、工商总局、商务部、外汇局、证监会五部门联合发布的《中外合作会计师事务所本土化转制方案》正式开始实施,这意味着昔日以中外合作方式进入中国的国