基于强化学习的无地图导航策略研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:waly7208346
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
导航即机器人从当前位置到达目标姿态,并在这个过程中不与任一障碍物发生碰撞的能力,是移动机器人的核心功能之一。目前已有的成熟技术都是在已知的环境地图上进行规划。相比较,包括人在内的动物能够在知道目标大致方位或特征的基础上穿过或稀松或稠密的障碍物到达目标点,实现无地图导航。强化学习是一种智能体从与环境的不断交互中学习的算法,适合于连续决策的任务,是目前无地图导航的主要研究方向。本文研究了基于强化学习的从记忆到推理两个层次的移动机器人无地图导航,所设计的规划器以RGB图像作为视觉输入、以机器人与目标点的相对位置作为目标信息。提出了使用近端策略优化的端到端导航策略;提出了将视觉图像先压缩再将压缩的特征输入强化学习网络的导航策略,使得规划器的采样效率显著提高;设计了堆积长短时记忆结构使得强化学习网络具有推理能力。为了测试、比较不同的网络结构和算法,搭建了一系列的基准环境并提供了环境接口可快速调用。首先,针对记忆任务提出了基于近端策略优化的端到端导航策略,搭建了基准仿真环境,在该环境中与经典的基于深度Q网络的端到端导航策略进行比较。其次,端到端强化学习网络中用于提取图像特征的的参数无需从交互中学习,可由变分自编码器单独训练。基于此,提出了基于变分自编码器的图像压缩方法,将输入的RGB图像压缩为低维特征后直接与其它低维信息一起输入决策层学习,使得强化学习的采样效率提高了2倍以上,且所规划出的路径更优。然后,机器人不止要能够克服传感器和环境噪声到达训练过的目标点,还要具有一定的推理能力到达该环境非障碍物区域中的其它任一目标点。本文提出了具有推理能力的堆叠长短时记忆模块。基于该结构的规划器在测试环境中对新目标点的导航成功率超过60%,这是以单目视觉作为输入的密集场景无地图导航的最好结果之一。最后,在机器人平台上对提出的推理规划器进行了实物实验验证。实验平台为实验室自研的Mir-UR5,将策略迁移到实物中再训练600幕,规划器对测试集中新目标点的导航成功率达到了65%。本文的相关算法和基准环境开源以便于其他研究者复现本文中的结果以及进一步的研究。
其他文献
一、对公司使用的"三剂"进行详细调查我公司历来对原材料管理比较重视,在程序文件中对其的分类、供方评价过程、采购、验收和储存都作了严格的规定,特别是对原材料进行A、B、C
介绍了某IGCC电厂机组的发电流程和该电厂空分系统的工艺流程。针对机组投产以来一直存在的空分系统负荷控制处于操作员手动模式的现状,分析空分装置的运行特点,提出从空压机
根据黄海及其周边地区的布格重力资料 ,通过多种方法处理 ,得到有关断裂的信息并求取了研究区的地壳厚度分布 .经过与地震层析成像结果、地质资料的对比和综合分析 ,认为朝鲜
作为宣传媒介,美术类刊物在20世纪80年代起发挥了重要的文艺传播作用。文章主要以《美术》《美术研究》《世界美术》等美术期刊作为研究对象,梳理美术类刊物的创刊、复刊与改
气管切开术是临床常用的一种辅助通气手段,主要是通过帮助患者建立人工气道来确保呼吸道通畅,在急重症患者中有极高的应用价值。但采用气管切开术治疗,可不同程度破坏患者呼
介绍了英国中学化学实验教材《Classic Chemistry Experiments(经典化学实验)》,并分析了这些案例的特点:实验设计尊重学生的认知,操作技法多样,注重实验的过程和方法,注重数据
介绍了由固定式无杆活塞缸驱动的增力夹紧机构及其优越性,分析其工作原理,并给出了理论、实际夹紧力和力放大系数的计算公式.
介绍了由杠杆和铰杆组成的基于无杆活塞缸的双向对中夹紧装置,在说明其工作原理的基础上。给出了输出力和增力系数的计算公式。相对于传统的夹具,该装置具有结构简单紧凑、刚性
双向AC/DC并网变换器是直流微电网的并网接口单元,对控制直流母线和大电网的能量流动、维持直流母线电压稳定和提高系统的运行效率起着非常关键的作用。直流微电网系统采用多
盐渍土试验研究是盐渍土力学特性及工程问题研究的一个重要方面,为深入认识及总结盐渍土试验研究成果,分别从盐渍土室内试验、现场试验、盐渍土力学强度研究及新技术应用等方