论文部分内容阅读
伴随着互联网技术的蓬勃发展,各种社交软件走入了我们的生活,每天我们都需要接触各种形式的多媒体信息。如何快速、准确地捕捉到其中的信息,对其进行有效的利用成为一个重要的研究课题,引起学术界的广泛关注。在这种趋势下,图像检索技术得到了充分又全面的发展。早期的图像检索是基于图像文本标签的。这种方法存在两个主要问题:第一,使用的图像需要经过人工的文本信息标注,这显著增加了物质成本和时间成本;第二,在背景更复杂的图像中,仅依靠人工标注不能准确地表达出图像的主要信息。因此,在后续的研究中基于内容的图像检索(CBIR)很快就取代了基于文本的图像检索(TBIR)。CBIR不再依赖人工标注,它通过算法自动地分析图像的主要内容,生成图像描述子。它主要有两个发展阶段:起初,CBIR主要依靠BoW、VLAD、Fisher Vector等手工设计的特征。经过高斯卷积、局部特征聚合、归一化等处理,这些特征具有良好的稳定性,并且易于计算。现阶段,得益于GPU计算能力的大幅度提升,基于深度卷积网络的图像检索算法成为了主流。在硬件支持下,卷积网络的层数持续增加,网络的种类也更加多样化。无论是传统的图像检索算法,还是基于深度卷积网络的图像检索算法,都采用了计算描述子之间欧式距离的方式衡量描述子的相似度。在本文的研究中发现,仅通过欧式距离描述特征之间的差别是不够充分的。对于一组相互匹配的特征点,只需改变特征的分布状态,它们的相似性就会被破坏,而欧式距离是无法捕捉到这种变化的。基于这种理论,本文分别提出了空间分布熵(SDE)和分布熵增益损失函数。空间分布熵把描述子的分布状态添加到了图像描述子当中。而分布熵增益损失函数则在网络训练过程中强调了特征之间分布状态的差别。综上所述,本文取得以下的研究成果:1.本文提出了使用空间分布熵表达图像中局部特征空间信息分布状态,提高图像描述子的准确性。每幅图像都从空间坐标、尺度和方向这三个方面统计局部特征的空间分布状态,生成频率分布直方图,计算空间分布熵。空间分布熵在经过归一化之后与图像描述子拼接在一起,就得到空间分布熵改进的图像描述子。空间分布熵既可以应用于传统图像描述子又可以应用于深度卷积网络的图像描述子。本文通过图像检索、图像分类、海量图像检索等多方面的实验证明了空间分布熵的作用。2.本文提出了分布熵增益损失函数。现阶段,深度卷积网络(CNN)已经在图像检索公开数据集上实现了很高的检索准确率。想要在此基础上进一步提高准确率,图像描述子需要在相似度很高的图像中捕捉到一些细微的差别,同时又能够轻易的分辨出不属于同一类别的图像。本文提出的分布熵增益损失函数保留了对比损失函数中计算图像之间欧式距离的部分,同时新的损失函数还在图像特征之间计算了分布状态的差别,最后把这两部分相加就得到了分布熵增益损失。通过充分的实验验证,分布熵增益损失函数提升了CNN图像检索的准确率。