论文部分内容阅读
基于内容的图像检索是多媒体领域一个非常活跃的研究方向。作为一种直观、生动的信息载体,图像数据已经深入渗透到了我们的日常生活中,成为人们沟通、交流的重要手段。目前,图像检索已经在医学、军事、安防、娱乐等领域取得了广泛的应用。将图像数据有效地组织起来,供人们浏览、搜索,具有重要的社会意义和巨大的市场需求。随着互联网技术的飞速发展,特别是数码相机、智能手机等移动设备的普及,图像数据呈现出爆炸式增长。对海量图像内容进行检索,面临着新的挑战。其中最为关键的一个问题是图像的低层特征与人们的高层认知理解之间存在“语义鸿沟”。 近几年来深度学习在图像分类与目标检测方面取得了突飞猛进的发展,而在图像检索方面鲜有应用研究。本文引入深度神经网络来学习适用于图像检索的层次化特征表达,并研究了以此为基础的特征匹配技术,以解决“语义鸿沟”问题。针对高维层次化视觉特征在大规模图像检索中带来的维度灾难问题,本文还研究了相应的高维索引技术。具体而言,本文紧紧围绕大规模图像检索中的特征提取、特征匹配以及高维索引三个方面展开深入研究,取得了以下研究成果: 1.基于深度神经网络的层次化特征学习 针对传统图像特征提取方法得到的低层特征无法有效反映高层语义的问题,本文主要研究了基于深度神经网络的层次化特征提取方法。现有基于深度卷积神经网络的特征学习方法大都是有监督的,需要大量的类别标注信息。然而,在大规模图像检索中,通常缺乏类别标注信息。因此,本文提出了一种基于弱标注数据的特征学习方法,利用图像之间的相关与不相关关系构建三元组进行特征学习。由于这种基于相关关系的弱标注信息比较容易获取,避免了费时费力地进行类别信息标注,因而非常适合于大规模图像检索。此外,在有类别标注的情况下,该方法也可以结合类别信息进一步提高检索精度。实验结果验证了该方法的有效性。 2.基于在线排序学习的层次化特征匹配 通常,多种视觉特征互为补充,较单一特征具有更好的检索性能。本文提出了一种基于排序学习的多特征融合框架,利用现有的批量排序学习方法融合多种特征(特别是深度学习得到的层次化特征)生成排序模型进行特征匹配。但是,批量学习方法需要所有数据参与训练,无法在线更新排序模型。为此,本文进一步提出了一类在线排序学习方法。在线学习方法每次仅利用一个样本进行训练,与批量学习相比,具有更高的时间和空间效率,并且可以实时更新排序模型,以适应用户查询需求的动态变化。实验结果表明:与批量学习相比,在线排序学习方法能在保持检索精度基本一致的情况下显著提高排序模型的训练效率。 3.高维层次化特征的压缩与索引 通常深度卷积神经网络学习出来的层次化特征高达上千维,在大规模图像检索中会带来维度灾难问题。为此,本文研究了层次化特征的压缩和索引方法。本文研究了基于谱哈希和积量化的层次化特征压缩技术,并提出了一种自适应的二进制码多索引哈希方法。该方法通过分析二进制码比特位之间的相关性来划分子串,以构建分布更为均匀的哈希表,从而提高检索速度。实验结果表明,该方法相比传统的多索引哈希方法能显著提高检索速度达50%。在此基础上,我们开发了一个开源的高维索引库,能以极低的空间和时间代价在高维空间完成近似最近邻查找。