Q-learning研究及其在AUV局部路径规划中的应用

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:okmijnuhbygvtfcrdx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
局部路径规划是水下机器人(AUV)导航任务中的难点。自适应性是AUV所必须具有的关键能力。强化学习被认为是获耳义未知环境下自主机器人控制策略的比较合适的方法,最流行的强化学习是Q-学习,因其简单并易于扩展经常被人们所采用。本文主要研究了强化学习理论及其在水下机器人局部路径规划中的应用,具体完成的主要工作有: 研究了强化学习系统的结构模型,确定了强化学习系统的组成;详细讨论了强化学习系统中的输入模块、输出模块及策略模块的实现方法,并结合一般的强化学习系统,分析了强化学习系统的工作原理。 研究了Q-学习的基本原理、算法和相关的几种改进算法,如Q(λ)算法和SARSA(λ)算法;区分了两类强化学习算法:在策略和离策略算法;讨论了SARSA(0)算法的收敛性。为强化学习应用于实时决策系统提供了理论基础和实现方法。 针对标准Q-学习收敛速度较慢的缺点,采用多步在策略SARSA(λ)强化学习算法,该算法克服了Q-学习收敛速度慢的缺点,运行轨迹平滑,训练过程相对比较安全。CMAC神经网络是一个局部泛化网络,相比BP网络有更快的收敛速度和更好的适应性,非常适合用于动态在线实时控制。 本文提出了在连续状念空间的机器人工作环境下多步在策略连续动作强化学习,针对移动机器人局部路径规划问题,用CMAC神经网络逼近连续状态空间和Q函数,产生与标准离散Q-学习网络数据结构相同的连续动作。结果,该方法对于局部路径规划任务很有效,仿真结果表明,该方法在运行性能和收敛速度两方面都优于其它的离散动作的Q-学习。 首次采用路径规划和沿墙壁行走两个强化网络的互相转换,成功解决了复杂障碍物环境下基于强化学习的自主机器人的局部路径规划问题,仿真试验结果表明了该算法的有效性。
其他文献
可倾转翼四旋翼飞行器是近年来无人机领域的一次重要创新,它既可以以直升机模式垂直起降和悬停,也可以以固定翼模式高速巡航,此外四旋翼结构使它还具有较大的载重量。这些优势使
在本系统的设计中,我们针对德州凯元热电有限公司输煤程控的实际设备情况和工艺流程的要求,并且,考虑到电厂输煤程控的发展前景,本着安全、可靠、先进、经济、实用的原则,对
该论文详细介绍了连锁型企业配送中心的物流管理信息系统的基本内容及应用,开发了一套基于安徽烟草公司下属的安泰物流公司配送中心工作流程的软件系统.其中重点设计了仓库管
专家系统(ES)是目前人工智能领域中最活跃和应用最成功的一个重要分支,它基于知识和推理,能解决只有人类专家才能解决的问题.随着计算机网络的不断发展,传统的专家系统与其相
本论文从理论与实践相结合的高度,运用马克思社会基本矛盾的原理、邓小平关于行政管理体制改革和机构改革的论述,认真分析了我国省会城市政府职能、机构和编制问题现状、特征
为了解决部队油库油罐测量劳动强度大、实时性差的现状,提高油库自动化信息化管理水平,总后勤部油料研究所立项研究“基于Modbus总线的油罐数据采集与控制系统”。本人参与了该
随着集成电路技术的快速发展,电子电路设计已经从逻辑门为基本单元的SSI电路设计,逐步过渡到MSI,LSI,VLSI设计,但随之产生的一个附加问题:设备故障的危害性也加大了,人们通过常用的
光纤陀螺具有独特的优势,应用越来越广泛.对于实用化的光纤陀螺,一般要求其具有较宽的工作温度范围,然而,光纤陀螺对环境温度的变化却很敏感.从实测的温度曲线上看,当环境温
网络控制系统利用控制网络在控制器和被控对象之间传送控制信息,减低了系统的布线造价和复杂度,并给系统带来了灵活性.同时由于信息在网络中传输存在时延等问题,而影响了控制
磁悬浮轴承是一种新型的支撑部件,由于它具有无摩擦、无需润滑、寿命长等优点,越来越受到科技界和企业界的重视。它是一种高新技术,涉及到电磁学、机械学、转子动力学、控制理论和计算机科学等众多领域。本文的工作是研究磁悬浮轴承的数字控制器。主要内容如下: 首先,在简单分析了磁悬浮轴承工作原理的基础上,从单自由度入手,通过对16极径向轴承的力学分析,推导了单自由度情况下电磁力与控制电流、转子位移之间的非