基于分层强化学习的移动机器人路径规划

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:lummi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各个科技领域的进步,移动机器人应用越来越广泛,移动机器人的研究与开发也越来越受到人们的重视。在移动机器人的研究中,路径规划是很关键的问题之一。它是机器人执行各种任务的基础,反映了机器人在运动过程中与周围环境交互的能力。移动机器人在动态环境下的路径规划尤具现实意义。本文主要研究了分层强化学习理论及其解决移动机器人在未知动态环境中的路径规划问题,具体完成的工作有:(1)分析了一般的路径规划方法,研究了从强化学习理论到分层强化学习理论的实现。(2)提出分层强化学习的分层框架。将路径规划系统由高到下分为三层,下层为上层提供服务,且对上层透明,因而易于扩展,降低了在连续状态和动作空间下学习的难度。每层的决策通过相应机器学习实现,以下一层的学习结果为基础,同时,这种方法避免了手工编码所带来的局限性。(3)研究了Q学习的基本原理和算法,针对Q学习收敛速度较慢的缺点,采用局部泛化的CMAC神经网络改进Q学习算法,克服了Q学习收敛速度慢的缺点。在调整CMAC网络权值时,充分考虑已学习数据的可信任度,有效地实现了在复杂环境中的局部路径规划,并且效果明显。在此基础上实现了基于CMAC的MAXQ算法,非常适合机器人动态在线实时控制。(4)把复杂环境中的障碍物分解为静态的凸形障碍物和凹形障碍物,以及不同运动方向的动态障碍物,给出不同类型障碍物的避障方法,成功地解决了复杂障碍物环境下基于分层强化学习的移动机器人的局部路径规划问题。利用VC++在电脑上完成了仿真软件的编写,加入各种学习算法得出仿真结果,证明了这种算法的有效性。仿真实验表明,分层强化学习适合于复杂环境下的路径规划。
其他文献
随着机器人技术日益成熟,如何使多机器人形成一定的队形完成某些任务成为一个热门研究领域。多智能体编队控制的目标是使多智能体系统沿某路径从起始点运行到目标点,在运行过
PLCC(Plastic Leaded Chip Carrier)是表面贴装过程中常见的封装类型,在其生产和贴装过程中视觉检测因实时性好、精度高、速度快逐渐成为检测的主要策略。对PLCC元件视觉检测
能源与环境问题已成为21世纪人类面临的首要问题。风能因具有可再生、无污染、低成本等优点,正在受到世界各国的重视。高效而可靠的风力发电系统的研究与开发已经成为能源技术领域的热点和难点。随着风力发电在世界各地开发力度的加大,为加快风力发电设备国产化进程,提高自主知识产权能力,对变桨距技术的深入研究成为必然。本文所研究的风力机变桨距控制系统是根据风速的大小调整桨距角,在风速较小时最大限度的捕获风能,在风
脉冲星得益于其广泛的空间分布性与自转周期的极其稳定性,成为目前最具前景的导航信标。基于X射线脉冲星的自主导航系统(XPNAV)克服了全球定位系统(GPS)与太空跟踪网(DSN)在深空
弹载导航计算机是导弹制导与控制系统的核心装置,其性能的好坏,直接关系到精确制导导弹的精度和杀伤目标的概率。随着导航技术向着多传感器、多信息融合的方向发展,弹载导航
粒子滤波是一种基于蒙特卡罗方法和递推贝叶斯估计的统计滤波方法,它依据大数定理采用蒙特卡罗方法来求解贝叶斯估计中的积分运算。其基本思想是:首先依据系统状态向量的经验条
无线传感器网络是一种特殊的Ad-Hoc网络,它具有自组织、快速展开、抗毁坏性强等特点,在军事、环境监测、医疗健康、工业控制等方面有着十分广阔的应用前景。近年来,随着无线
电磁流量计作为一种主要的测量仪表,可广泛应用于水泥、化工、钢铁、轻纺、医药、航空、给排水、食品饮料等部门。电容式电磁流量计除了具有一般有电极电磁流量计的优点外,最大
钢铁企业产品的成本主要取决于原料成本、制造成本和物流成本。目前国际原料供应日趋紧张、价格上涨,致使许多钢铁企业产品成本居高不下,利润空间十分狭小。企业降低产品成本
视频监控系统是以计算机技术为核心,结合先进的多媒体技术、网络通信技术、数字图像压缩技术等多项技术的一种计算机系统。随着后PC时代的来临,这些技术都得到了迅猛发展,与此同