论文部分内容阅读
同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)是机器人领域的关键技术之一,主要解决机器人移动过程中的定位与环境感知问题。由于视觉传感器的独特优势,视觉SLAM成为近几年的研究热点。基于特征的相机跟踪方法是单目视觉SLAM中最常用的技术,能够精确地估计出相机位姿并推断出场景的几何结构。然而,特征对环境的依赖程度较高,在纹理缺失等场景中表现不佳,因此,基于特征的单目视觉SLAM方法往往存在着明显的稀疏性问题,导致其对场景的感知局限于几何结构层面,从而无法广泛应用于野外场景探测,自主导航等实际任务中。对于非结构性区域的稠密深度获取,仅从几何角度来说往往很难得到解决。卷积神经网络(Convolution Neural Network,CNN)在提取场景的高层信息和进行像素级别的回归任务方面已经取得了很大的成功,其推断的深度是稠密且全局精确的,与跟踪过程中的结构信息相互补。同时CNN的深度感知方式,在低纹理场景下具有更好的鲁棒性。本文利用基于特征的相机跟踪和CNN深度推断,将几何方法和深度学习思想相结合,从深度融合角度研究单目视觉SLAM的稠密重建问题。主要成果包括:(1)设计并构建了一套完整的面向稠密重建的单目视觉SLAM系统,优化相机跟踪过程中的特征提取策略并引入高效的误匹配算法,以提高前端中数据关联的正确性。(2)在深度估计方面,提出基于Resnet结构的多尺度深度估计网络,实现了非结构性区域的稠密深度获取,并增强了系统在低纹理场景和纯旋转运动下的性能。(3)融合过程中,综合利用相机跟踪的路标点和CNN推断的深度信息,充分考虑尺度模糊问题和深度数据的差异性,构建了基于快速求解算法的深度重建框架。