论文部分内容阅读
图像分类是计算机视觉领域中最为重要和基础的研究课题之一,在近几十年里吸引了众多研究者的关注。随着图像分类技术的快速发展以及人们对人工智能的强烈需求,以图像分类技术为主导的产品已经遍布人们的智能生活、安全防控以及医疗诊断等多个领域。但是由于现实生活中物体的种类繁多且变化多样,加之在成像过程中多种外部噪声因素的干扰,鲁棒、精准的图像分类仍是一个非常具有挑战性的任务。概率分布建模方法具有很强的表达能力,且对部分信息丢失和噪声较为鲁棒。然而,这类方法因为具有特殊结构和高复杂性的问题,导致其在图像分类任务中的性能并不令人满意。本论文的目标是通过解决上述问题并充分利用概率分布建模的优势,研究一系列基于高斯分布建模的鲁棒、精准的图像分类方法。为了实现这一目标,论文的主要创新工作包括以下四个部分。(1)充分考虑高斯分布建模的特殊结构是此类方法能够取得成功的关键。由于高斯分布所在空间形成了一个未知的黎曼流形,因此传统线性空间上的运算不能直接应用在高斯流形上。为了能够合理有效地利用高斯分布建模,论文研究并分析了高斯分布所在空间的结构特性。为此,论文通过严格的数学证明揭示了高斯分布所在的空间具备一个李群结构,并且基于李群理论提出了两类新颖的高斯嵌入方法。这些嵌入方法在遵从高斯分布代数和几何结构的同时,可以将高斯分布映射到线性空间内以便高效的处理。实验结果表明,本文提出的高斯嵌入方法优于现有的其他方法,这为论文后续利用高斯分布建模提供了理论基础。(2)有了对高斯分布所在流形空间的分析和认识,提出了一种基于高斯分布建模的无码本模型。与现存的基于无码本模型的图像分类方法不同,该方法在利用高斯分布建模的过程中充分考虑了高斯分布的特殊结构,同时将其嵌入到线性空间中进行处理,从而实现了快速有效的分类。该方法即克服了主流的视觉词袋模型中字典码本带来的限制,同时首次展现了这种基于高斯分布建模的无码本模型与主流的视觉词袋模型相比,同样可以取得十分有竞争力的分类性能。同时,通过对提出的方法进行实验分析,得出重要结论:基于高斯分布建模的无码本模型比视觉词袋模型对于局部特征更为敏感。(3)由于基于高斯分布建模的无码本模型对于局部特征更为敏感,因此在上述无码本模型的基础上,提出了一种鲁棒近似无穷维高斯描述子。该高斯描述子首先通过使用深层卷积神经网络特征和明确的近似无穷维特征映射增强局部特征,考虑到使用的深层卷积神经网络特征通常是高维度且采样数量较少,为此,提出一种全新的带正则的最大似然估计法解决高维小样本条件下高斯分布鲁棒估计的问题。提出的鲁棒近似无穷维高斯描述子明显地提升了基于高斯分布建模图像分类方法的性能。该方法展示了高斯分布建模和深层卷积神经网络结合的可能性,并且说明了鲁棒估计在高维小样本条件下对建模的重要性和必要性。(4)鲁棒近似无穷维高斯描述子表明,高斯分布建模与深层卷积神经网络结合可以显著地提升高斯分布的表达能力。但是现有基于高斯分布建模的图像方法在特征提取、高斯分布建模和分类器学习阶段均采用独立分离的处理方式,鉴于此,提出了一个全新的全局高斯分布嵌入神经网络,以端到端学习的方式将一个高斯分布作为图像表达嵌入到深层卷积神经网络中,从而达到了特征提取、高斯分布建模和分类器联合优化的目的。该方法将基于高斯分布的建模图像分类设计成整体统一的框架,进一步提升了基于高斯分布建模图像分类方法的性能。为了验证上述方法的有效性,本文将它们用于多个图像分类任务中,包括物体识别、场景分类、纹理/材料图像分类、大规模图像区域分类以及精细粒度图像识别。在16个标准图像数据集上(包括了超过百万张来自千余类别数的自然图像)的实验结果表明,基于高斯分布建模的图像分类方法可以取得非常鲁棒、准确的分类结果,并比同类方法表现的更为出色。