基于模拟退火-Q学习的移动机器人路径规划技术研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:king1981001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在各项技术研究中,导航技术是实现移动机器人智能化和自主性的一项关键技术,也是目前的研究热点之一。而路径规划是导航技术中的基本问题,因此,研究移动机器人路径规划技术,提高移动机器人对未知环境适应性,对实现移动机器人智能性和自主性具有重要意义。本文在分析了移动机器人路径规划方法的基础上,对强化学习中的Q学习算法进行重点研究。针对基于强化学习的路径规划在奖赏函数设计、探索与利用的平衡、连续状态和动作空间的泛化等方面存在的问题,设计了相应的解决方案,提出了未知环境下移动机器人路径规划算法。针对奖赏函数影响收敛速度的问题和探索与利用的平衡问题,提出了基于行为分解奖赏函数的模拟退火-Q学习的移动机器人路径规划算法。为了降低奖赏函数对收敛速度的影响,设计了基于行为分解非均匀结构的奖赏函数;同时,为了解决探索与利用的平衡问题,采用模拟退火(Simulated Annealing,SA)方法进行动作选择。仿真实验表明,该算法提高了收敛速度,有效解决了探索与利用的平衡问题,使移动机器人找到了较优路径。为了提高SA-Q学习的收敛速度和基于动态规划的Q学习性能,提出了一种基于动态规划的SA-Q学习算法。通过动态规划对值函数进行逆序更新,加快收敛速度;采用模拟退火动作选择策略,提高算法性能。仿真结果表明,该算法具有更快的收敛速度和更高的性能,并且移动机器人能够找到一条无碰撞的路径。针对复杂未知环境中连续状态和动作空间的泛化问题,提出了基于模糊推理的SA-Q学习移动机器人路径规划算法。模糊推理系统对连续的状态和动作进行泛化,并确定系统输出动作,通过Q学习来修改模糊规则。仿真实验表明,该算法具有较强的泛化能力,可以有效解决移动机器人在复杂环境中的路径规划问题。
其他文献
山西南部上古生界主煤层含气量具有南高北低、东高西低、东南部最高的区域展布格局,并显示出“层控”特征;含气量与煤级及灰分产率密切相关。主煤层的平均含气性可划分为三类六
当前我国改革进入攻坚阶段,经济体制转型期的深层次矛盾越来越突出,伴生的腐败现象也越发成为人民群众和社会关注的焦点。各级党员干部特别是领导干部,一定要引起高度重视,算
近些年,基于声音信号的故障诊断技术被应用在多个领域,例如风机故障诊断、发动机故障诊断、放电故障诊断等。基于声信号的故障诊断应用繁多,其也逐渐成为故障诊断领域中的一
目的了解北京市通州区健康人群流行性乙型脑炎抗体水平及分布特点,为新形势下采取有效的防控策略提供依据。方法随机抽取在当地连续居住6个月以上的健康人群,共250人,采用蚀斑减少中和试验测定乙脑抗体水平。结果2017年通州区健康人群乙脑抗体阳性率为84%(210/250),不同区域、不同年龄组人群乙脑抗体阳性率差异有统计学意义(P<0.05);不同性别、不同户籍人群乙脑抗体阳性率差异无统计学意义(P>0
吴桂本是一个永远闲不住的人。尽管已经69岁,到了该颐养天年的时候,但她还是在奔忙。黄河上下,大江南北,为了向农民传授农业技术,全国10几个省、70几个县市都留下了她的足迹
随着社会的高速发展以及基础设施的大力兴建,建筑能耗在总能耗中所占的比重越来越大。由于目前建筑智能化水平还不够高,在建筑用能上存在极其严重的浪费现象。在建筑能耗中,
在这个世界上最小的指挥部里,中国共产党的领袖们指挥了世界上最大规模的战争。周恩来曾风趣地说:我们这个指挥部一不发人,二不发枪,三不发粮,只发电报,就这样把国民党打败
随着易开采石油资源的减少,深层高温井的数量越来越多。大多数集成电路芯片最高工作温度为125℃,很难满足200℃高温油井的开采需求。本文对高温核磁共振NMR测井仪器的发射机电
手语是聋哑人交流的主要手段,由于绝大多数正常人不会手语从而导致了聋哑人与普通人之间的交流障碍,手语识别对于促进聋哑人与正常人间的交流,方便聋哑人的生活有重要意义。
2014年——向着光亮艰难前行2014年,对于市场上的每个人来说,听到最多的一个词大概是“难”——市场难、动销难、推广难……不乐观的预期,不宽松的投入,不期待的利好,日子真