论文部分内容阅读
视觉词袋模型作为计算机视觉中最经典的模型之一,在图像分类、图像检索、视频行为识别等方向都具有广泛的应用。特征编码是视觉词袋模型中的关键技术,在很大程度上影响了最终的分类性能。该问题的研究难点在于如何充分利用字典与训练样本特征分布的信息来设计有效的编码方法。现存的特征编码方法以低阶编码居多,对于高阶特征编码的研究相对较少。本文重点研究了如何在图像表达中挖掘高阶信息,提出了两种新颖的编码方法。传统的局部约束线性编码使用的字典由视觉单词组成,由于没有考虑视觉单词周围特征分布的几何结构,因此只是特征空间的分段常量近似。为解决此问题,本文提出了局部约束的仿射子空间编码(LASC) 。 LASC将一组低维的线性仿射子空间的集合作为字典,每个子空间使用相应的局部坐标系(各自的坐标原点及其子空间基向量)来刻画特征空间的局部几何结构。仿射子空间字典可以看作是对特征分布的分段线性近似,比传统的视觉单词字典具有更强的表达能力。LASC使用局部约束的编码策略,将特征在近邻仿射子空间上的线性投影作为一阶编码。同时,本文基于费舍尔信息测度提出了二阶LASC编码,充分利用了特征分布的高阶信息进一步提升性能。针对深层卷积神经网络特征和大规模图像分类问题,本文在传统的费舍尔核的理论基础上提出了基于高维协方差字典的费舍尔向量编码(FV-COV) 。高维协方差建模充分利用了卷积神经网络特征的优势,直接建模原始特征各维度之间的相关性。相比传统的费舍尔向量使用的对角协方差的混合高斯模型,协方差字典不仅更充分的利用了特征分布的二阶信息,而且计算方便。由于不需要迭代算法训练字典,该方法避免了高维特征下的字典学习带来的数值稳定性与效率低下等问题。同时,FV-COV的分类性能优于传统的费舍尔向量编码方法,使高维局部特征可以应用在大规模图像分类问题上本文使用传统的手工特征和基于深层卷积神经网络的特征,对提出的两种高阶特征编码方法进行了大量的实验评估。LASC相比其他经典的特征编码方法在多个标准的物体识别和场景分类数据库上都具有领先的性能,同时在图像检索问题上也取得了具有竞争力的结果。FV-COV作为一种改进的费舍尔向量编码,在诸多大规模图像分类数据库上达到了当前最高的准确率,与同类方法相比在性能与效率两方面都有较大的优势。