论文部分内容阅读
在众多计算机视觉任务中,本质的难题之一是生成具有良好判别性的图像表示,即高性能的图像特征。由于图像特征不仅应对类内变化有足够的鲁棒性,而且应对类间变化有足够的判别性,因此设计优秀的图像特征是一项极具挑战性的工作。图像特征总体分为图像块层次特征和图像层次的特征(即局部特征和全局特征),前者用于描述一个图像块,后者用于描述一幅完整的图像。本文研究图像特征表示的学习方法,并分别提出了生成图像块特征和生成图像特征的新算法,用于提高场景/对象识别的性能。现将主要研究成果总结如下:(1)首先,本文提出了一种新的图像层特征表示,并用于图像分类。传统的词包(Bag-of-Words)模型完全丢弃了特征的空间分布信息,丧失了一定的判别能力。为此,我们提出了空间相关图(Spatial Correlogram)特征表示法,它通过捕获视觉词对在空间范围内共同出现的频率,描述了局部特征的空间分布信息,从而提高了图像识别的判别能力。然而该方法仍缺少对图像特征整体空间结构的描述,为了进一步提高该特征的区分度,我们又将相关图特征与空间金字塔模型结合,生成一种混合特征。在场景/对象数据库上的详细实验对比表明,本文提出的相关图特征和混合特征能取得相对于传统的词包模型更高的图像分类准确率。(2)其次,本文提出了一种新的图像块特征表示——高效的核描述子(Efficient Kernel Descriptor, EKD)。图像块特征的设计同样属于计算机视觉领域内的基本研究内容,优秀的图像块特征表示能够有效地提高图像分类、对象识别等相关算法的性能,但人为设计图像块特征间的差异往往不能足够理想地反映图像块间的相似性。核描述子(Kernel Descriptor, KD)方法提供了一种新的方式生成图像块特征,在图像块间匹配核函数基础上应用核主成分分析(Kernel Principal Component Analysis,KPCA)方法进行特征表示且在图像分类应用上获得不错的性能。然而,该方法需要利用所有联合基向量去生成核描述子特征,导致算法时间复杂度较高。为此,我们设计了高效的核描述子算法。算法建立在不完整Cholesky分解基础上自动选择少量的标志性(Pivot)联合基向量以提高算法效率,实验结果表明高效的核描述子(EKD)在图像/场景分类应用中相对原始核描述子(KD)获得了更加优秀的性能。(3)再次,在构建高效的核描述子(EKD)思路基础上,我们又提出了一种新的图像层特征表示——高效的层次化核描述子(Efficient Hierarchical Kernel Descriptor, EHKD)。原始核描述子(KD)特征只能用于描述图像块,因此Bo等在核描述子(KD)算法框架上提出了层次化核描述子(Hierarchical Kernel Descriptor, HI KD)用于描述整幅图像。但由于层次化核描述子(HKD)构造过程与核描述子(KD)构造过程类似,所以生成层次化核描述子(HKD)算法也会遇到生成核描述子(KD)算法中的计算效率问题。为了克服这个问题,我们设计了高效的层次化核描述子算法。该算法同样依赖不完整Cholesky分解,采用逐层递归方式调用计算高效核描述子(EKD)过程形成图像层次的特征表示。实验结果表明,高效的层次化核描述子(EHKD)相对于层次化核描述子(HKD)具有计算效率以及特征表示能力上的优势。(4)最后,本文提出了一种监督方式下的图像块特征表示——基于监督学习的高效核描述子(Supervised Efficient Kernel Descriptor, SEKD)。之前提到的无论是核描述子(KD)方法还是高效的核描述子(EKD)方法,都属于无监督学习的范畴,它们通过图像块间的相似度来设计图像块层次的特征,并且展示出了相对于手工设计的图像块特征在对象识别等领域更加优秀的性能。这两种方法都是从核的角度给出了梯度朝向直方图的解释,利用像素点的信息“长出”图像块层次特征。但这种方式最大的缺陷就是图像块间计算相似度时并没有考虑图像块本身的类标信息,因此设计一种监督模式下融入图像类标信息的特征学习方法是非常必要的。为此,我们提出了基于监督学习的高效核描述子算法,该算法以融合图像类标的不完整Cholesky分解算法为基础。实验结果表明,基于监督学习的高效核描述子(SEKD)相对于无监督方式下学习得到的特征具有表示维度更短,判别能力更强的优势。