论文部分内容阅读
图像检索是模式识别中极具挑战性的研究方向。其中特征提取和紧凑的特征描述是图像检索技术的重要组成部分。传统的图像检索技术主要由两部分组成:(1)基于文本的图像检索(TBIR);(2)基于内容的图像检索(CBIR)。TBIR技术存在局限性且难以精确描述图像内容,而CBIR虽然能够通过低层视觉特征传达图像信息,但在高层语义表达方面仍存在很多不足。近些年,卷积神经网络(CNN)在图像检索和图像分类等任务中取得优异表现。在卷积神经网络中,通常采用预先训练CNN模型的卷积层或池化层的激活表示图像高级语义信息。虽然在语义表达方面优于传统图像检索技术,但是所带来检索性能的提升十分有限。而在预先训练卷积神经网络的基础上进行针对性再训练,不仅可以获得高效的特征表示,并且在表示图像深度语义方面有显著优势。针对于不同的检索任务,本文给出不同的解决方案。主要内容如下:
1.在CBIR中,本文提出一种多阶段特征整合的图像检索方法。首先将输入图像从RGB颜色空间转换到符合人类视觉感知的HSV颜色空间,并计算图像颜色和颜色差;然后通过简单的颜色差计算得到图像的边缘特征;最后通过多阶段特征整合组合低级视觉特征表示图像内容。基于多阶段特征整合方案不仅能够描述图像颜色和边缘属性,而且可以很好地表示图像区域和空间排列信息。实验结果表明,在传统的图像检索数据集(Corel-10K、GHIM-10K和Corel-5K)中,本文提出的多阶段特征整合方案具有优秀的辨别能力。
2.通过整合图像低级视觉特征可以很好地表示图像视觉内容,但基于多阶段特征整合方案始终属于手工特征提取方法,难以真正处理图像语义问题。为了更好地缓解图像语义差异,本文提出了一种基于端到端微调再训练的深层特征图像检索方法。在预先训练卷积神经网络(AlexNet、VGGNet和GoogLeNet)的基础上采用孪生网络架构进行对比损失训练,并对不同的网络基准进行性能比较。并且通过学习白化参数和加权扩展查询方法进一步提升图像检索性能。同时在训练数据集的选择方面,本文采用更接近实例图像检索任务的训练数据集,使得网络参数的学习更具有针对性。
尽管本文提出的多阶段特征整合方案在图像检索中有良好的表现,但是手工特征提取方法不适用于实例图像检索。在实例图像检索数据集(Oxford5k、Paris6k和Holidays)上的性能表现证明,基于微调再训练的深层特征图像检索方法不仅优于传统的基于内容的图像检索方法,而且优于预先训练的卷积神经网络的特征提取方法,同时能够更好地应对“语义鸿沟”问题。
1.在CBIR中,本文提出一种多阶段特征整合的图像检索方法。首先将输入图像从RGB颜色空间转换到符合人类视觉感知的HSV颜色空间,并计算图像颜色和颜色差;然后通过简单的颜色差计算得到图像的边缘特征;最后通过多阶段特征整合组合低级视觉特征表示图像内容。基于多阶段特征整合方案不仅能够描述图像颜色和边缘属性,而且可以很好地表示图像区域和空间排列信息。实验结果表明,在传统的图像检索数据集(Corel-10K、GHIM-10K和Corel-5K)中,本文提出的多阶段特征整合方案具有优秀的辨别能力。
2.通过整合图像低级视觉特征可以很好地表示图像视觉内容,但基于多阶段特征整合方案始终属于手工特征提取方法,难以真正处理图像语义问题。为了更好地缓解图像语义差异,本文提出了一种基于端到端微调再训练的深层特征图像检索方法。在预先训练卷积神经网络(AlexNet、VGGNet和GoogLeNet)的基础上采用孪生网络架构进行对比损失训练,并对不同的网络基准进行性能比较。并且通过学习白化参数和加权扩展查询方法进一步提升图像检索性能。同时在训练数据集的选择方面,本文采用更接近实例图像检索任务的训练数据集,使得网络参数的学习更具有针对性。
尽管本文提出的多阶段特征整合方案在图像检索中有良好的表现,但是手工特征提取方法不适用于实例图像检索。在实例图像检索数据集(Oxford5k、Paris6k和Holidays)上的性能表现证明,基于微调再训练的深层特征图像检索方法不仅优于传统的基于内容的图像检索方法,而且优于预先训练的卷积神经网络的特征提取方法,同时能够更好地应对“语义鸿沟”问题。