论文部分内容阅读
特征点匹配是计算机视觉一项重要操作,特别在三维重建以及机器人领域中的视觉实时定位与建图(VSLAM)中,其地位尤为突出。而特征点匹配在很大程度上取决于特征点的描述符。但是,光照和视角变化等极端扰动情况下,鲁棒的特征点描述及匹配,还是一个极具挑战性的问题;特别是对于移动机器人视觉导航,光照(黑/白、阴/晴、季节)和视角变化(高速转向)的影响尤为突出,是VSLAM研究的核心问题之一。本文的研究目的就是生成一种对光照和视角变化都鲁棒的特征点描述符,提高图像在此类变化时的匹配精度。首先,本文总结已有的特征点描述符,将已有工作划分为三类:手工描述符、来自针对性训练的卷积神经网络(Convolutional Neural Networks,CNN)描述符和来自普适的预训练的CNN描述符。本文就这三类特征点描述符处理光照和视角变化的能力进行了比较研究。共选择具有代表性的10种描述符,在最新的图像特征点匹配的基准数据集HPatches上对这10种描述符进行评估,研究发现:(a)基于CNN的描述符在光照和视角变化匹配精度都要优于手工描述符;(b)在视角变化条件下,训练的CNN描述符匹配精度优于预训练的CNN描述符,而(c)在光照变化条件下,预训练的CNN描述符匹配精度比训练的CNN描述符更好。然后,基于训练描述符与预训练描述符对光照和视角变化不同的优势,本文提出了一种描述符融合模型(Descriptor Fusion Model,DFM),通过使用两个自动编码器来融合训练描述符和预训练描述符,生成一种对光照和视角变化均鲁棒的特征点描述符。其中,第一个自编码器为一个卷积自编码器,用于降低预训练描述符的维度。第二个自编码器为一个全连接自编码器,用于融合训练描述符和压缩后的预训练描述符。在HPatches数据集上将这两个自编码器分别与一些常见的降维方法和数据融合方法进行了比较研究,发现:(a)预训练描述符的降维方面,卷积自编码器比主成分分析(PCA)和随机投影(Random Project)等要好,(b)使用卷积自编码对预训练描述符进行降维,不仅可以降低预训练描述的维度,而且可以提高预训练描述符的匹配精度,(c)全连接自编码器对训练描述符和预训练描述符的融合效果比相加(summation)、相乘(product)和拼接(concatenation)等融合方法要好。本文提出的DFM框架可以适用于任何训练的CNN模型或预训练的CNN模型,基于现有CNN模型生成的描述符性能,分别选择了Hard Net和Dense Net169作为训练和预训练CNN模型的代表。最后,在HPatches数据集上对DFM框架生成的描述符与其他先进的CNN描述符作对比,实验结果表明,DFM能够达到最好的匹配精度,且平均匹配精度(mean Average Precision,m AP)分别比Hard Net和Dense Net169高出6.45%和6.53%。