论文部分内容阅读
近几年,随着人工智能在我国的迅速发展,智慧城市背景下的无人驾驶与机器人研究成为新的研究热点,视觉SLAM(Simultaneous Localization and Mapping,SLAM)正是该领域十分重要的研究内容。其中,相机位姿估计问题是视觉SLAM问题的核心。相机位姿估计是指在多张场景或者目标图像中,估计图像间相机运动的变化情况。在这个过程中,图像间的旋转、光度变化、运动幅度的变化以及纹理稀疏等问题,会大大影响相机位姿估计的准确性,进而影响无人驾驶技术与机器人在环境中的定位、建图与识别等一系列任务。本文将影响相机位姿估计问题的原因分为内外两个因素,内在因素是相机本身运动对估计的影响,外在因素是外界环境对特征处理的影响。具体来说,全文在大尺度运动变换与多类室内环境中结合深度学习方法研究了相机的位姿估计任务,帮助视觉SLAM稳定可靠完成定位建图。本文的工作内容如下:(一)针对相机在空间中大尺度的运动估计问题,本文提出了基于稠密特征的运动变换预测方法。该方法将原图像与目标图像看作一个整体,从全局计算图像对的特征相似性,用以预测图像对之间的运动变换。整体方法首先采用特征金字塔的方式提取图像对不同尺度的特征图,然后通过互相关层将图像对之间的特征信息融合,并在融合向量中突出相似性高的特征融合值,接着使用运动变换编码器在每层特征提取层中结合融合信息向量预测运动变换,将这种运动变换参数化。最后不断迭代运动变换的编码器,预测两图之间发生的运动变换。该方法在实验中有效预测了同一场景多视角下发生的运动变换,预测的精度与图像对中关键信息的提取均表现优异。此外,为了直观显示图像对之间的运动,本文也对方法做了补充设计,定性地表示图像对之间的运动变换。(二)为了在多种具有挑战性的场景中保持相机位姿估计准确,并且提升视觉SLAM系统跟踪性能的稳定性,本文将图像中的关键信息做关联性匹配,提出了一种连续特征的追踪方法。首先,通过运动估计网络生成粗粒度的图像对特征。然后,将相机运动的运动变换作为优化信息来帮助判别匹配信息与非匹配信息。最终,使用匹配判别分类策略得到匹配对之间的关系矩阵。整体方法在应用场景中的有效性通过将其应用到SLAM传统方法中来验证,本文为该方法设计了完整的视觉SLAM后端优化模块,以使方法成为完整的视觉SLAM系统。实验结果也证实基于匹配关系的训练有效提升了视觉SLAM系统在多种场景中跟踪的适应能力,特别是在特征稀疏与弱纹理场景中的表现。综上所述,本文从影响相机位姿估计问题的内外两个角度出发,为视觉SLAM领域设计了新的图像特征匹配算法,将图像对之间的特征与运动变换有效联系在一起,在多种具有挑战性的场景中取得了很好的表现。本文的研究为视觉SLAM领域提供了新的思路,在无人驾驶等领域具有积极的应用与研究价值。