论文部分内容阅读
移动机器人在复杂室内场景中完成各种指定任务的前提是实现自身精准定位以及构建环境三维地图并进行语义感知。同步定位与地图构建(Simultaneous Localization And Mapping,SLAM)是实现移动机器人自主定位并构建环境地图的关键技术,其通过各种传感器获取附近环境信息,逐步构建环境地图并同时估计自身位置。当传感器为相机时,该技术被称为视觉SLAM。虽然视觉SLAM能够精确地重建移动机器人所探索的环境,然而并不能提取场景中的语义信息,无法满足机器人执行高级任务的需求。随着深度学习、计算机视觉等技术的不断发展,环境中的语义信息能够通过基于卷积神经网络(Convolutional Neural Network,CNN)的目标检测算法所获取,为提高移动机器人的智能化水平提供了必要的条件。因此,本课题将视觉SLAM算法与基于卷积神经网络的目标检测算法相结合,实现室内环境的三维语义地图构建。本文的主要工作为以下三个方面:第一,针对移动机器人自主定位以及环境建图的需求,研究并设计了本文视觉SLAM系统。首先介绍了包括视觉SLAM的数学描述,相机模型和空间坐标系,随后针对视觉SLAM框架中的各个组成模块进行了原理的阐述,最后针对系统前端的视觉里程计进行了特征提取与匹配和三维点云拼接的实验,取得了良好的特征匹配和点云拼接效果;第二,针对移动机器人实现环境语义感知的需求,对神经网络以及卷积神经网络的原理与结构进行研究,并提出了一种基于语义信息的相机位姿估计方法。本文经过分析对比采用YOLOv3网络模型作为语义提取的目标检测算法,实现对环境中物体语义信息的获取。实验采用数据集以及办公室场景图像分别测试目标检测算法的效果,其检测结果表明该算法在检测精度和检测速率两方面达到了较好的平衡,维持高准确率的同时可以满足目标检测的实时性;另外通过实验评价本文提出的位姿估计算法,其定位及位姿估计精度满足移动机器人性能要求;第三,针对语义地图构建方法的问题,对ORB-SLAM2算法进行改进并结合目标检测算法,构建了语义标注的三维地图。本文将视觉SLAM系统和实时目标检测算法结合起来,融合YOLOv3目标检测算法对环境进行语义感知,通过数据关联与模型更新给三维地图中目标空间点添加语义信息,构建环境的三维地图。采用NYU数据集及Kinect v2相机采集的数据对语义地图构建方法进行了实验与分析,生成三维点云地图及语义地图,验证了算法的可行性。综上,本文研究内容涵盖了基于RGB-D相机的视觉SLAM系统以及基于卷积神经网络的目标检测算法,提出的基于语义信息的位姿估计算法以及语义标注的三维地图构建方法均取得了良好的实验结果,为后续移动机器人执行人机交互等复杂任务打下基础。