论文部分内容阅读
大数据时代下,随着互联网中大规模图像数据库越来越多,如何使用户快速的在海量、动态的数据库中找到满足需求的图像是现今视觉领域的重要课题。其中,最主要的应用是基于内容的图像检索,即输入查询图像,在线查询相似的图像结果。最经典的图像检索系统是基于以SIFT为代表的手工局部特征建立倒排索引,但其局部底层特征与全局语义间存在着严重的‘语义鸿沟’,准确率无法得到突破。在带有语义特性的CNN深度特征出现后,虽然在图像检索尝试中有着不错表现,但仅使用深度特征作为图像表达无法针对细节纹理进一步区别图像达到理想精度。所以,如何结合两种特征特性,互为补充描述图像,突破现有特征表达局限,并以此建立可以快速查询的索引结构,提高图像检索系统查询准确率,仍是迫切需要解决的一大挑战。本文尝试结合图像全局与局部特征,提出对融合特征进行二维倒排索引的方案,同时,在相似性匹配阶段优化特征向量的权值估计,提高图像检索系统的查询准确率,解决图像检索。主要贡献如下:全局与局部特征相结合二维倒排索引模型。首先使用统一尺度空间下的分块模型,以分块Patch作为图像的视觉词单元,应用具有细节纹理特性SIFT特征以及具有语义特性的CNN特征作为视觉词组合表示。与一维倒排索引应用词袋模型类似,本文是对两个特征向量空间进行聚类划分,则视觉单词索引键值是两个空间特征码词的组合,由此使得在索引阶段就对视觉词进行了更精细的划分,在离线训练时就大量排除了错误匹配,索引列表中的图像将是全局与局部特征都一致的相似组合,提升了检索系统的准确率。考虑词频分布与主题相关性优化视觉单词的权值估计。在图像检索系统的比较中发现,常被使用的经典IDF计算由于忽略词频分布的影响,因此放大了偶尔出现的噪声影响,弱化了词频不同的视觉单词的区分力。优化的权值估计恰恰避免了这一问题,同时,本文应用主题模型求解视觉单词与主题相关性,并提高与主题强相关的视觉单词的重要性程度。本文还结合了二维索引结构特点,提出Multi-IDF计算框架作权值估算,整体提高视觉单词在相似性匹配中的区分能力,有效提升匹配精度。本文提出的结合全局与局部特征的二维倒排索引检索方案,有效提高了图像检索系统的查询准确率,同时在系统实践中也应用了HE二进制编码、MA多分配查询策略来保证系统的查询效率和召回率。本文在公开真实的大规模图像数据库上进行了系统实现,结果分析比较中进一步验证了所提方案的优势。