论文部分内容阅读
在如今数据爆炸的时代,如何对数据进行有效的分类筛选,从而准确获取符合用户需求的有价值的信息成为人们面临的主要问题。在所有的数据类型中,图像是其中最常见的一种,且有着信息量大以及便于理解等特点,因而针对图像的分析与理解逐渐成为研究的热点。其主要的研究方向包括图像分类、图像检索以及目标识别等,它们有着各自不同的研究内容和口的,但相互之间也有所关联。由于图像数据量大及其非结构化等特性,几乎所有的图像分析与理解任务都不能直接在原图像上进行像素级的分类识别等操作,需要将图像表示为易于处理的特征向量。这种图像特征表达的好坏直接影响了图像分析与理解的结果,特征构建方法也由数字图像处理发展到特征学习领域,不同于前者的手工构建特征,特征学习是在给定数据集上进行监督或非监督的机器学习得到需要的特征表达。在众多的特征学习方法中,Fisher Kernel方法利用高斯混合模型在图像局部特征上构建特征码本,并通过求解模型上的对数似然梯度得到全局的特征表示,相对于其他模型在图像表达的全面性和判别性方面都展现了很大优势,同时,Fisher Kernel作为一类标准的特征学习框架在兼容性和扩展性方面都有着巨大的潜力。因此,基于Fisher Kernel的图像特征学习方法的研究具有重要意义。本文首先对基本的Fisher Kernel方法进行改进,引入多码本概念,提高视觉词之间的区分度,并根据不同尺度图像携带信息不同的特性,提出一种多尺度多码本的图像表达方法,得到效果更好的特征。另外,利用近年发展起来的卷积神经网络,提出跨卷积层池化的Fisher Kernel图像特征表达,充分利用了卷积网络的内在特性并融合了两者的优势得到新的特征表达。本文的主要贡献如下:(1) 由于基本的Fisher Kernel模型存在单一码本限制特征表达效果的问题,本文针对该问题提出多码本联合编码,利用码本间的差异化提供更加全面的特征表达,同时在输入端将不同尺度的图像与不同码本相对应,构建了完整的多尺度多码本图像表达体系,进一步提升了表达效果。(2) 将卷积神经网络与Fisher Kernel相结合,利用卷积神经网络来提取图像特征,并用Fisher Kernel对其进行编码得到图像表达。在此过程中,本文根据卷积网络的特性提出多空间单元的特征提取方法以获得更加全面的图像局部特征,以及跨卷积层的空间池化方法来代替传统的空间金字塔,为特征表达提供更准确的空间位置信息,这些都有效提升了图像表达的效果。