论文部分内容阅读
随着互联网技术的发展,现如今的我们已经处于一个信息爆炸的时代。如何高效的组织和利用这些信息,则成为当今时代的一个巨大挑战之一。对图像资源而言,其自身包含了丰富的、有用的信息,这些信息机器都无法直接处理。因此,大规模的图像检索成为一个极具研究意义和理论价值的课题。大规模的人脸图像检索作为其中的一个具体应用,同样是当下热门的研究方向。人脸图像检索,可分为两大部分,即人脸图像编码和高维索引设计。一个良好的人脸图像编码不仅要能辨别出不同人之间的区别,而且对同一个人的不同姿态、不同表情具有一定的容忍度。高维索引设计面临的难题则是“维数灾难”问题和检索效率问题。随着向量维度的增大和数据规模的增大,人脸图像检索系统的性能会急剧下降。本文以大规模的人脸图像检索为研究课题,旨在实现一个百万级别的大规模人脸图像检索系统。其主要内容如下:1.人脸图像编码。人脸图像与普通物体图像不同,它是一种非刚性的,具有特殊的性质。人脸部的五官特征明显,且位置相对固定。基于这些分析,本文在人脸对齐的基础之上选取五个关键基准点(左眼、右眼、鼻子、左嘴角、右嘴角),并以此提取相应的局部特征。对整个人脸图像,通过加噪自编码器(Denoise Autoencoder)自动生成全局特征。2.高维索引设计。法国自动化研究所的Jegon于2010年提出了非对称距离计算倒排索引机制(Inverted File with Asymmetric Distance Computation,IVFADC),非对称距离计算倒排索引机制很好的将积量化(Product Quantization,PQ)、非对称距离计算(Asymmetric Distance Computation,ADC)和倒排索引(inverted index)有机融合。实现了高效的大规模数据集上的高维检索。本文在IVFADC的基础之上,对全局特征和局部特征进行不同量化处理,并在建立倒排索引过程中,对每个输入向量匹配两条近邻的聚类中心,即增加一半的空间消耗,换取整个系统的查全率。