论文部分内容阅读
随着近年来不断发展的存储及通信技术,互联网上的信息量不断呈现爆炸增长,尤其是图像视频等多媒体信息。这也使得图像视频等检索从原本的基于文本的检索转变为基于内容的检索。为了提高图像视频等检索的准确率以及检索效率,许多研究者提出了各种模型来应对图像视频检索。深度哈希方法是目前的检索方法中研究最为活跃且效果最好的方法。所谓哈希即检索过程中的图像视频等都被表示成了低维二进制特征称为哈希码,且以汉明距离为衡量相似性的标准;所谓深度即将图像视频转换为哈希码的哈希函数的主体是由深度学习的网络如卷积神经网络构成的。目前的深度哈希方法将不相似图像的哈希码间汉明距离拉得不够开,导致准确率仍有提升空间。针对这个缺点,我们提出了一套基于深度学习的图像检索的哈希方法,其中的核心是目标哈希码生成算法以及适应于不同尺寸输入的两套深度网络。实验证明了我们的方法在现有方法的效果中处于领先。我们还将这套图像检索的系统加以改进推广到视频检索中并证明了其有效性。为了描述基于内容的多媒体检索的背景和研究现状,本文以图像检索为例,首先介绍了基于内容的图像检索的由来,发展演变以及高效算法需求的迫切性。我们先给出了图像检索方法的一般步骤,再引出在检索效率上更为高效的哈希方法。我们对哈希方法进行了详细的分类并介绍各个分类的特点。深度学习在计算机视觉领域的发展也使得图像检索的深度哈希方法获得了关注与成功。我们介绍了用于深度哈希方法的卷积神经网络的构成与细节,再对目前的图像检索的深度哈希方法作了概述和简介。深度哈希方法尽管是图像检索中效果最为突出的方法,但其仍有提升空间,需要有一个系统能够把不相似图像的哈希码间的汉明距离分得更开,使得检索更为准确。我们提出了一套基于深度学习的图像检索的哈希方法,我们的方法首先生成一套目标哈希码组,该码组是一套满足码组中的码字间的汉明距离最大化的精心优化的码组,它可以包含训练图像标签之间的语义信息。由该码组结合数据库图像的标签信息可以得到新的形式的训练数据,实现哈希网络的单例学习。我们的哈希网络基于卷积神经网络,最后一层是可以输出哈希码的哈希层。针对不同尺寸图像的输入,我们设计了两套结构不同的网络,可以根据数据集的特点和检索的需求灵活使用。为了验证我们提出的系统,我们在图像检索上用三个数据集MNIST,CIFAR-10以及ImageNet进行了图像检索的测试。我们的方法与十余种其他研究者提出的方法进行了比较。在检索的综合准确率MAP上,我们的方法在多个测试中都是最优,在ImageNet上,检索MAP更是提升了近10%。实验结果证明了我们提出的基于深度学习的图像检索的哈希方法十分有效。最后,我们还将整个系统进行改进以适应更为复杂的视频检索,我们加入了关键帧提取部分以及对关键帧哈希码取众数构成视频哈希码的步骤。我们在UCF-101数据集上作了实验,实验结果显示检索MAP可以达到0.9以上。这也证明了我们提出的检索系统不仅在图像检索中效果突出,在视频检索中也可以适用。