基于强化学习的无人艇路径规划方法与设计

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:chenke25
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无人艇作为新式探索海洋的工具,在智能应用方面的相关研究得到了广泛的关注,无人艇自主导航技术是其实现智能化的关键。随着人工智能特别是强化学习的快速发展为无人艇路径规划问题的解决提供了新方向。本文通过对强化学习进行改进,将其应用于无人艇全局路径规划问题中,并通过将其与局部路径规划算法结合,保证无人艇在有效躲避障碍物、顺利到达目标点的同时,规划出一条最优路径。主要的研究工作如下。首先,通过对无人艇发展现状、全局路径规划算法和局部路径规划算法的研究,明确课题研究背景和意义。对本文的无人艇数学模型进行建模并介绍了无人艇避障基本理论。其次,针对无人艇全局路径规划,提出了改进的Q学习路径规划算法。针对Q学习算法探索利用不平衡的问题,提出了动态调整?-greedy随机策略参数?的方法,通过考虑成功率使得算法可以根据学习的不同阶段动态调整探索因子?,从而满足不同学习阶段对于探索和利用的平衡问题。采用shaping思想,根据已知信息建立势场模型,使目标点势场值最大,障碍物势场值为零,远离障碍物、靠近目标点的状态具有较大势场值,将势场差值作为回报函数的附加奖励,加快算法的收敛速度。然后,针对海域面积广、障碍物形状不固定等诸多不确定因素,利用Q表进行学习的Q学习算法会出现计算量剧增、维数爆炸的情况,提出了将深度Q网络应用于无人艇路径规划问题中。使用神经网络代替Q表,解决了当状态动作对过多时的Q表过大,占用过多内存的情况,同时通过对神经网络的训练使得算法具备了一定的泛化能力,增强了对环境的适应性。采用基于优先级采样的方式可以有效区分不同样本的重要程度。采用另一个与计算Q值的神经网络相同结构的神经网络作为计算目标Q值的目标网络,加快算法学习过程。在紧急避障状态下,基于启发知识选择动作进行避障,可以为神经网络的训练提供更多避障数据,提高学习效率。通过将该算法与RRT算法对比,证明深度Q网络在处理无人艇路径规划问题上的合理性。最后,提出使用改进的动态窗口法解决航行过程中遇到动态障碍物的路径规划问题。由于评价函数权重因子对路径规划效果起到了决定性作用,因此通过模糊控制根据不同情况实时调整评价函数权重参数,改进算法相比于传统算法可以适应更多环境。再将其与全局路径规划方法结合,最终生成一条全局最优的无碰撞路径。
其他文献
随着柘城县经济社会的发展,地下水开采量相继增加,而地下水过度开采造成某些区域地下水长期处于超采状态,导致地下水水位逐年下降,形成大面积降落漏斗,同时地下水超采也造成了柘城县地下水水质恶化、苦咸水层下移、河流断流等一系列环境地质问题。在查明地质和水文地质条件的基础上,建立研究区水文地质概念模型和相应的数学模型,采用数值模拟法,进行地下水资源评价,为柘城县地下水资源可持续利用和科学管理提供依据,具有重
有机-无机杂化类二维钙钛矿材料因其高载流子迁移率、高荧光量子产率、较高的激子结合能、带隙可调、制备工艺简单等优异的性能引起了人们的广泛关注。此外,有机层与无机层交
针对作为初晶硅形核基底的AlP颗粒尺寸不易控制的问题,本文以Cu-P中间合金为研究对象,采用ZEISS Axio Vert.A1光学金相显微镜、扫描电子显微镜(Scaning electron microscope,SEM)、D/MAX-2500型X射线衍射分析仪等手段,对静态溶解时由水淬得到的凝固组织进行分析,系统研究了Cu-P合金在铝熔体内的溶解过程。研究发现固态Cu-P合金向铝熔体的溶解过程
我国于1998年在医疗保障体系中首先建立了城镇职工基本医疗保险(以后简写为职工医保),重庆市于2001年建立职工医保,截至2017年年底参保职工总计640.28万人,其中在职455.34万人,退休职工184.94万人。医保基金的收支平衡关系着医疗保障体系的稳定,是医疗保险制度得以稳健运行的经济基础。我国经济已步入新常态,在医保基金收入方面,随着全民医保时代的到来,基本医疗保险参保率维持在95%以上
伴随着时代的发展和社会的进步,全球经济不断融合扩张,消费者经济生活水平的提高,导致需求急剧增长,而信息科学技术的升级带来了电子商务的突飞猛进,网购的成交量、交易商品的种类和范围都在迅猛增长,对快递业的发展及快递配送提出了更高的要求。其中城市快递配送要求逐步出现了高频次、准确时效性高、个性化服务、小批量等特点。在网购飞速发展的环境下,各类快递共同配送联盟应紧抓时代脉搏,适时提高自身发展目标,努力做到
任务型人机对话的目的是帮助用户通过对话的方式完成特定领域的任务,现阶段已被广泛应用在很多企业的智能客服中。训练任务型人机对话系统有多种方法,现阶段最流行的是基于强化学习的训练方法。虽然强化学习与其他方法相比有很多优点,但仍然存在一些问题。在使用强化学习训练人机对话系统的时候,往往需要构建用户模拟器。现阶段用于构建用户模拟器并训练人机对话系统的方法,往往存在多样性差、训练耗时过长等问题。为了解决这些
青海湖位于青藏高原高寒区、西北干旱区和东部季风区的交汇处,属于全球气候变化的敏感区和生态系统的典型脆弱区。湖泊水位的变化对青藏地区和西北地区的生态建设和可持续发展有着重要的意义。本文利用国家气候中心、青海湖水利信息网、NCEP/NCAR—Ⅱ再分析资料以及哈德来中心的SST数据,采用相关分析、合成分析、回归分析、EOF分解等方法讨论青海湖地区降水、温度以及水位的变化特征和总体趋势,重点分析近31年来
当前,我国互联网创新与新工业革命正处于历史交汇时期。工业与互联网结合的模式日渐成为提高工业制造效率的新突破口。国务院将我国工业互联发展分为三个阶段,以尽快让技术产业体系以及融合应用等全面达到国际先进水平。因此,众多急需转型的工业制造的大中型企业利用经典的企业转型方式---并购,以推动信息化与工业化深入融合,为产业提供新动力,同时由于工业互联领域是以创新为关键驱动力的产业,因此企业创新能力是对并购绩
石墨烯是由一层碳原子构成的周期六方点阵蜂窝状二维晶体,拥有非常优异和独特的光、电、磁、力等物理和化学性能,其硬度、导电、导热等性能已经超过了目前已知的绝大部分材料,这些优异的性能致使石墨烯材料在高性能复合材料、智能材料、电子器件、太阳能电池、能量存储装置和药物载体等领域具有极其广阔的应用前景,并可能促使这些相关行业发生革命性的进步。由于石墨烯在基体中分散性与导电性的问题,导致其电磁屏蔽性能不高。采
城市化不仅仅被认为是一个从农村人口向现代城市集聚的发展过程,它也被社会各界普遍认为是推动现代中国社会经济快速增长的重要推动力和组成部分。随着现代城市人口的不断增长和迁移,城市化的发展过程自然也会伴随着现代城市人口数量的增多或现代城市人口规模的扩大。而如今城市化问题中,探索最优的城市规模对于建设发达城市群为核心的聚集经济具有重要意义;另一方面,与区域经济紧密相关的制造业企业正经历深刻变革,探索促进制