论文部分内容阅读
通过视觉来获取相机姿态的问题通常被称为视觉里程计(Visual odometry,VO)。在最近二十多年时间里,VO已经广泛应用于各类机器人的导航定位中。传统解决VO的方法是基于几何运动约束来求解,涉及到特征提取、特征匹配、运动估计等繁琐过程,每次更换平台都需要重新进行相机标定、整合各个模块才能达到较好的结果。而且在雾天雨天或者场景中出现动态物体时会影响特征匹配过程,导致姿态估计效果受到极大影响。近几年深度学习发展迅速,出现了一些基于深度学习方法研究VO的工作,可以端到端进行相机姿态的估计,完全摒弃几何法的繁琐过程,直接基于给定的RGB图片得到相机姿态。本论文提出了基于卷积神经网络(Convolutional neural network,CNN)和循环卷积神经网络(Recurrent convolutional neural network,RCNN)的两种 VO 估计的方法,在 KITTI VO 标准数据集上训练测试,与传统几何法进行对比,取得了较好的实验结果。主要创新点如下:1.提出了数据集标签的生成方法,在KITTIVO标准数据集上进行姿态解算,实现了场景中单张图片的绝对姿态的求解,包括旋转矩阵、欧拉角、四元数这三种表示方法。并利用求解的绝对姿态实现两两相邻图片之间的相对姿态求解,包括正向图片对、隔帧图片对、逆向图片对的相对位姿。最后将求取的姿态用于后续深度学习的训练过程,为训练提供数据标签。2.提出了 CNN-VO方法,实现了相邻两帧图片之间的相对姿态估计。输入两张RGB图片,端到端输出图片之间的相对位姿,包括三维位移和三维欧拉角。完全摒弃传统方法中的特征提取、特征匹配、相机标定、图优化等步骤。同时通过逆序输入图片对来增大样本空间,提高网络的泛化能力,实现更高精度的姿态估计。3.提出了 CNN-LSTM-VO方法,实现了连续多帧图片之间的相对姿态估计。输入多帧RGB图片,输出两两相邻图片之间的相对姿态。该方法利用循环神经网络处理时序信号的优势,可以同时估计多帧图片的相对位姿,相比于纯粹的卷积神经网络,增加了多帧图片之间的约束关系,达到更好的效果。同时还在该方法基础上通过逆序输入图片序列实现更精确的姿态估计。