基于深度强化学习的无人艇航迹控制的研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:lklqlk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
水面无人艇(Unmanned Surface Vessels,USV)是一种在水面可以依靠自主控制而完成一系列任务的水面运动装置,在维护海域安全,勘探海洋资源,环境检测等领域均有着广泛的应用前景。传统运动控制算法在水面无人艇上应用时,由于水面无人艇驱动方式较多,船型差异较大因此难以建立通用的模型。强化学习算法是一种不依赖问题模型的机器学习方法,当其运用于无人艇的自动控制时不需要对其进行精确的建模,没有难以调节的超参数,因此非常适合用于无人艇的运动控制。但是无人艇属于典型的欠驱动的系统,其动作的执行具有不可忽略的延迟,因此其状态的转移不严格符合马尔科夫性,带来了无人船强化学习智能体训练收敛过程不稳定的问题。同时强化学习稀疏奖励问题会导致强化学习算法训练收敛缓慢,当强化学习算法应用到无人船的运动控制时训练代价较大。本文对深度强化学习算法运用于无人船的航迹控制进行了研究,针对以上问题对传统的深度强化学习算法进行了改进,使其更加适用于欠驱动的无人船的运动控制,在Simulink中搭建了相应的仿真系统以验证改进的有效性。本文的主要研究和工作内容如下:首先针对无人船运动的大迟滞性带来的状态的转移不符合马尔可夫性的问题,对无人船智能体的状态空间进行重构。通过仿真实验验证了,使用状态量重构可以在不增加训练时间的前提下,使具有动作执行延迟的无人船也可以通过强化学习算法进行良好的控制。其次为解决强化学习中都会遇到的稀疏奖励问题,为奖励函数设置动态阈值。引入了基于奖励函数的好奇心机制。鼓励无人船智能体在训练初期没有形成有效的行动策略时多对陌生的环境进行探索。训练中后期则限制智能体的好奇心使其集中精力优化已有的策略。通过仿真实验证明基于奖励函数的好奇心机制可在加快无人船智能体训练的同时保证一定的循迹精度。最后还分析了当强化学习智能体所观测的状态空间较小且不完备的情况下,使用更多中间状态重构的方式可以让智能体可以观测到状态空间的高阶差分信息,使得观测的状态空间间接地变得完备。通过仿真实验证明当无人船智能体能观测到状态空间的二阶差分量时就已经能够很好地进行运动目标的跟踪控制。
其他文献
报纸
职业教育地位陡然提升的今天,越来越多的教育者关注到了其重要性,并在积极结合时代发展,探索更加适合中职教育发展的道路。目前中职教育机构在进行教学管理的建设与优化中,进行新教育教学方式的创新与研发,并积极加强“以生为本”教学理念的渗透。基于此,本文基于产教融合背景,阐述分析了中职语文的教学现状,并就如何构建中职语文新生态教学模式进行了简要分析,以期推动中职语文教育质量的提升,促进我国中职教育事业的更好
期刊
职业素养是职业内在的规范和要求,中职生职业素养亟待提升。中职语文阅读教学是职业素养培育的有效载体。当前,中职语文阅读教学在融合职业素养方面存在教学管理轻视、教学水平不足、教学实施脱节、教学评价缺位等困境,有必要从强化教学管理、提升教学水平、优化教学实施、完善教学评价等方面推动职业素养更好地融入中职语文阅读教学。
期刊
水泥窑尾烟气选择性催化还原(Selective Catalytic Reduction, SCR)脱硝系统的流场均布问题是脱硝效率、氨逃逸控制及催化剂堵塞和磨损的关键影响因素。采用CFD FLUENT数值模拟方法,对SCR脱硝系统的速度场、压力场及尘粒浓度场进行模拟分析,优选出“导流格栅层+均流层”的最佳导流结构,并更改优化了系统出口烟道结构。得出最优的模拟结果为:入射进第一层催化剂床层的烟气流线
期刊
学位
难降解有机废水的治理与排放是一个棘手的问题,因为它具有毒性大、浓度高、来源广泛以及成分复杂等特点,因此仅仅依靠常规的处理手段难以达到预期的效果。传统均相芬顿技术已经被证明是一种有效处理多种难降解有机物的高级氧化技术,但仍存在一定的不足。比如较窄的p H适用范围、易产生大量铁泥造成二次污染以及后处理工艺较复杂等。因此近年来不断发展的非均相芬顿技术越来越受到人们的关注。本文通过铁电絮凝原位生成的三种铁
学位
为满足和适应船舶行业日益严格的排放法规,涡轮增压技术在其中得到了广泛的应用。但在实际运行过程中,船用柴油机排放的尾气中含有的固体颗粒会对可变混流涡轮造成冲蚀磨损,导致喷嘴环和叶轮叶片表面材质的剥落,表面粗糙度增加,不仅降低喷嘴环和叶轮叶片的使用寿命,同时也会造成涡轮和柴油机运行效率的下降。因此研究船用柴油机尾气颗粒对可变混流涡轮的冲蚀磨损特性具有较大的实际意义。本文以船用某型号可变混流涡轮增压器为
学位
目前全球面临着越来越严重的环境污染问题,其中水资源污染情况尤为严重,但传统的处理解决的方法不仅效率低下而且费时费力。光催化降解技术作为一种新兴的治理方案,有着节能、无污染、高效和针对性强等优点,是一种环保绿色的解决水环境污染的新方法。但是现有的大部分光催化材料都有着电荷转移效率低、宽带隙和光能利用率低等缺陷。金属-有机骨架材料(MOFs)是近期光催化材料研究的热点,这种材料具有较大的比表面积、丰富
学位
随着技术的发展,船舶工业对振动和噪声品质提出了更高的要求。一些设备不宜有较大的位移,常采用基座保证设备的安装,同时也能对动力机械产生的振动进行隔离和阻波。本文提出一种新的复合阻波基座,综合利用声学黑洞的能量聚集效应、阻振质量的阻抗失配原理及阻尼减振技术,在振动传递路径中对弯曲波进行控制和振动能的耗散。本文利用几何声学方法分析了声学黑洞能量聚集原理和声学黑洞阻尼结构的减振原理,基于理论公式,通过MA
学位
本文立足于现有江苏太湖隧道的服务特点及需求,探索了国内外交通服务方式的利弊,分析了太湖隧道事故的空间特征,提出了基于可变情报板的追踪式服务研究。通过对标准规范的分析,可变情报板的方案选型,确定洞口和洞内的情报板形式,进一步完善其功能特点以及系统的设计方案,提高了出行效率,降低隧道的安全风险,保证隧道良好的畅通能力。
期刊