论文部分内容阅读
智能机器人需要理解周围环境的几何结构以及语义信息,才能与场景进行有意义地交互,在视觉SLAM(Simultaneous Localization and Mapping,简称SLAM)中利用场景的特殊结构与语义信息,已被证明是视觉SLAM的一种很有发展前景的方向。本课题提出一种融合回转结构的视觉SLAM方法,主要创新点包括两个方面:1)、提出深度学习与传统图像分割算法结合的回转体外轮廓自动分割方法;2)、融合回转结构的视觉SLAM方法总体框架,以及回转结构真实尺度与位姿融合方法。本课题在传统视觉SLAM的基础上,融合了回转体结构与语义信息。首先,通过训练Mask R-CNN(Regional Convolutional Neural Network,简称R-CNN)回转体识别与分割网络,结合传统图像分割方法,提取回转体外轮廓;其次,根据回转体成像外轮廓,利用回转体成像特殊几何约束,建立其比例模型;最后,设计融合回转结构的SLAM系统框架,提出回转体真实尺度与位姿融合方法,建立结构语义SLAM地图,说明了回转体语义信息对SLAM后端闭环检测的帮助作用。本文的具体工作可总结如下:(1)回转体检测与分割。为了让计算机理解图像中的回转结构,本课题从网络上收集回转体照片,包括花瓶、瓷器、水杯等类别,并使用图像标注工具进行手工标注,建立回转体图像数据集。使用此数据集对Mask R-CNN物体识别与分割网络进行训练,得到回转体识别与分割模型。将Mask R-CNN回转体分割结果,作为Grabcut主动式图像分割方法的先验,得到回转体轮廓初始分割结果;随后在回转体区域进行Canny边缘检测。最后,将Mask R-CNN回转体分割结果,Grabcut分割结果以及Canny边缘检测结果融合,实现回转体的自动分割,并得到图像中回转体的语义类别信息。(2)基于单张照片的回转体比例建模。在回转体成像过程中存在特殊的几何约束,本课题根据单张照片中的回转体外轮廓信息,利用回转结构成像特殊几何约束,构建回转体比例模型。首先,从回转体成像外轮廓中拟合回转体上下椭圆方程;其次,根据回转体上下椭圆空间关系约束,以及回转结构与单轴旋转运动的类比,建立约束方程组,求解绝对圆锥曲线,得到相机内参;然后,通过回转体成像的一条侧轮廓与一个截面椭圆,利用回转体成像中存在的平面透射约束,求解生成曲线的成像;随后,使用截面椭圆平面的消失线、回转体成像对称轴以及相机内参,对生成曲线与对称轴的成像进行平面矫正;最后,对矫正后的生成曲线进行归一化处理,并绕对称轴旋转得到回转体比例模型。(3)融合回转结构的视觉SLAM方法。在回转体比例建模方法的基础上,设计融合回转结构的视觉SLAM系统总体框架,提出回转体真实尺度与位姿融合方法,说明回转结构语义信息对SLAM闭环检测的帮助作用,并建立融合回转结构的语义SLAM地图。基于同一回转体在不同两帧成像中,其顶面、底面椭圆中心点为匹配点对的假设,提出回转体真实尺度与位姿初始估计方法;在初始尺度与位姿的基础上,利用成像后生成曲线上的采样点,构造最小二乘优化问题,对回转体尺度与位姿进行精确求解。本课题利用深度学习方法与传统方法融合,获得SLAM视频序列中回转体的结构与语义类别信息,实现了对传统图像特征SLAM点云地图的增强。通过实验与分析表明,本文所提融合回转结构的语义SLAM方法,可用于实际SLAM场景中,能建立包含回转体语义与完整结构信息的SLAM地图,相比于点云地图,能用于更高层次的应用场景。本文方法使用图像信息完成回转体建模,并与SLAM地图融合,不依赖点云与图像特征信息,相比于基于点云分布的回转体识别再增强方法,回转体建图结果点云地图稀疏程度无关,能用于特征缺失以及包含透明回转体的场景,同时具有场景中回转体的语义类别信息。