基于强化学习的牵引车路径规划研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:fairylky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
牵引车作为一种常用的牵引运输设备,在各行各业中得到了广泛应用。当牵引车在码头、仓库、军用舰艇等处工作时,工作环境复杂拥挤,不确定因素较多,牵引车的行驶容易引发安全事故。在航母甲板上需要进行飞机的牵引、起飞和降落以及弹药的保障等一系列作业任务,使牵引车的行驶安全、工作效率以及操作难度成为难题。因而将无人驾驶技术应用于牵引车是未来的发展趋势,而路径规划是该技术的核心。因此,对甲板上牵引车路径规划的研究具有重大意义。  本文以航母甲板上的牵引车为研究对象,在分析了牵引车路径规划常用方法的基础上,选用强化学习中具有较强自学习能力和较高鲁棒性的Q学习算法对牵引车进行路径规划研究。针对Q学习算法在牵引车路径规划中存在的三大难题,提出了相应的解决方案,使牵引车能够在未知复杂环境下快速找到无碰撞的最优路径。对于因Lookup表格存储Q值函数所带来的“维数灾难”问题,分别利用BP神经网络的非线性值函数逼近方法和模糊推理的较强泛化能力对Q学习算法进行离散化,提出了BP神经网络和模糊推理与Q学习相结合的路径规划算法。其中,基于BP-Q学习的路径规划算法可以很好地解决连续状态和动作空间的泛化问题,使动静态环境下的牵引车都能寻找到一条较优的路径。而基于模糊-Q学习的路径规划算法在实现BP-Q学习算法功能的基础上,还可以解决复杂环境下的局部极小值问题。此外,模糊推理规则库还可以为牵引车提供先验知识,从而提高学习速度。针对Q学习算法中动作选择时易产生的探索与利用的平衡问题,采用了Boltzmann分布策略,实现了“前期重探索”、“后期重利用”的动作选择功能。针对奖赏函数设计问题,提出了一种基于行为分解的方法来减小其对学习收敛速度的影响。该方法将路径规划行为分为避碰行为和趋向目标行为,并利用权值系数控制两种行为的比重,从而合理地设计奖赏函数来提高收敛速度。最后通过不同环境下的仿真实验证明了算法的正确性和有效性。
其他文献
该文以广泛应用的规则调度为对象,针对调度知识表示、推理和获取瓶颈问题,研究了基于逻辑网(Logical Network)的调度知识表示、综合推理技术,提出了不可扩展DNF(Disjunctive
该文主要研究与探讨了两个大问题.其一,臭氧在全自动滚筒洗衣机中的应用;其二,老式全自动滚筒洗衣机超薄化.在通过大量的研究与对比分析之后,我们认为臭氧可以作为一种比较理
该论文对球铁曲轴的使用状况、检修工艺、结构特点、表面加工状态、材料的化学成分与机械性能以及表面强化处理等情况进行了介绍和分析,并指出这些因素对曲轴疲劳强度的影响.
L·A·Zadeh教授最早提出了模糊集合理论,由此产生了模糊控制技术,其突出的优点是:不需要对被控对象建立精确的数学模型.对于复杂的、非线性的、大滞后的、时变的系统来说,建
干熄焦装置是国家计委推荐的、以后在焦炉上重点发展的项目,预计在不久的将来,国家将会出台年产100万吨以上的焦化厂在新建焦炉时必须配套干熄焦工艺的相关政策.当前国内除了
磨削技术在机械加工领域中占有极其重要的位置,数控磨削是磨削技术的主要发展方向之一.数控技术可以提高磨削的自动化程度,实现高速高精度磨削加工.研究曲轴磨削技术,开发具
磁流变液是一种智能材料,属于复杂流体的范畴。在磁场作用下,磁流变液内部的颗粒将由自由分布形态变为沿磁场方向的有序状态。这种结构变化导致磁流变液的物理特性(如流变特性、
该文在介绍了虚拟数控系统的功能特点和体系结构的基础上,比较了面向对象技术组件技术与数控系统结合的优缺点,提出了基于COM技术组建虚拟数控系统的思想,并将虚拟数控系统划
实现CAD/CAPP/CAM的集成对最终实现CIMS有着重要的意义.现有资源的合理利用是企业的效益根本,对工艺装备可重用性的要求尤其如此.通过广泛的调研和深入的研究,笔者认为:利用相
该文以伍克布拉托维奇的ZMP点理论为基础,同时分析了机器人的脚底滑转问题,提出了以ZMP点和踝关节扭矩大小共同作为机器人步行稳定性判据,扩展了完善了ZMP理论.在此基础上,从