论文部分内容阅读
视觉位姿估计是指利用附属于运动体(如车辆、机器人等)的视觉传感器采集的图像数据来估计其位姿变换的过程,是基于视觉技术的定位导航、三维重建、轨迹推算等领域的重要研究方向。该工作目前主要集中在视觉里程计的算法研究中,是视觉SLAM系统的关键构成模块,具有广泛的应用场景。通常,视觉里程算法计沿袭了特征提取、特征匹配和追踪定位的经典流程,并利用其它优化策略调优。但是面对复杂场景时,该类方法往往存在稳定性不足的缺点。深度学习技术在处理图像理解任务时表现出强大的特征抽象和表达能力,为视觉位姿估计问题提供了新的研究思路。该方法能够从训练数据中学习相机位姿的表征方式,不需要依赖任何相机参数,而且能够学习到场景的真实尺度,具有传统方法不具备的优势。因此,本文针对基于深度神经网络的单目视觉位姿估计方法进行研究,并完成以下工作:1.结合任务性质和深度学习特点,将单目视觉位姿估计问题建模为一种有监督的回归学习问题,进行分析和设计整体算法框架,并根据特征表达方式的不同将该问题分为两个层面进行研究。2.利用稠密光流能够表征帧间运动信息的特性,提出了一种基于双流卷积神经网络的位姿估计模型。该方法将以图像帧和光流图为输入的卷积神经网络进行级联以完成特征提取,利用共享的全连接层和欧氏距离损失函数直接预测帧间位姿向量,进而构建位姿回归模型。该方法既简化了特征提取过程,又能够融合不同层次的特征,提高了模型的预测精度。3.进一步地,对上述算法进行改进,设计了一种基于端到端学习的位姿估计模型。该算法模型仅以图像帧作为输入,融合光流提取网络和位姿估计网络,利用自编码网络重构光流场,提高光流特征的鲁棒性。通过位姿估计误差和光流重构误差双重约束,保证网络的训练效果,提高模型的位姿估计性能。同时,该算法将特征提取过程在深度学习框架下实现,无需引入外部算法,这种端到端的训练方式使得模型有潜力得到性能上的整体提升。综上,本文基于深度神经网络逐步设计实现了端到端的位姿估计模型,并在公开数据集上设计仿真实验,实验结果表明该算法在各项性能指标上均具有较好的效果,避免了外部参数依赖,同时能够估计真实尺度,具有实际应用价值。