论文部分内容阅读
随着互联网和数字成像设备的普及,积聚数字图像的各种网络社区得到了迅速发展,包含大量图像的数据库也随之不断出现,如何从这些海量图像数据库中快速检索出满足用户需求的图像已成为多媒体应用领域中一个重要的主题。为了实现精确而快速的图像检索,解决图像检索中的图像内容精确表示,大规模检索的存储约束以及检索效率等问题,从图像描述符,近似最近邻检索以及高维向量索引等几个方面进行了深入的研究。针对全局描述符VLAD的区分度与存储大小之间的矛盾,提出了一种增强的图像描述符,其通过两层视觉码书来生成图像的VLAD描述符,即图像的局部特征的残差向量基于细粒度的第二层视觉子码书而产生,而残差向量的累积基于粗粒度的第一层视觉子码书。另外,针对图像局部特征非均匀分布,对第二层视觉子码书提出了优化措施。实验结果表明,两层码书及优化策略能显著提高固定大小的VLAD描述符的区分度。针对在向量原始空间训练量化器及向量量化编码时间开销过大的缺陷,设计了残差投影量化器,并将其用于近似最近邻检索。残差投影量化器由多阶段子量化器组成,在每一个阶段子量化器训练过程中,借助主成分分析将高维向量投影到低维空间,并通过K均值聚类算法在低维空间生成子量化器的视觉码书,量化产生的残差则反投影到原始空间用于训练下一阶段子量化器。另外,以训练阶段和量化阶段的总体误差最小化为目标,提出了相应阶段的优化措施。查询时,所采用的非对称距离计算及查找表很好的满足了大规模高维向量检索的精度和效率需求。为了提高检索效率,提出了基于二级邻接图的索引结构。第一级邻接图反映的是转换积量化器视觉码书和数据库向量的近邻关系,用于快速生成查询的近邻种子,在第一级邻接图的生成过程中,采用逆向生成模式,即先将数据库向量分配给转换积量化器的多个最近邻视觉码字,然后,再为每个视觉码字保留少数几个最近邻数据库向量。第二级邻接图反映的是数据库向量到自身的近邻关系,用于近邻传递,为了快速生成第二级邻接图,采用了一种基于划分树的邻接图近似构建算法。基于二级邻接图进行查询时,对于给定的查询向量,先快速检索到该查询向量在转换积量化器视觉码书中的最近邻视觉码字,并基于第一级邻接图的邻接关系快速生成查询向量的最近邻种子,对每一个最近邻种r,基于第二级邻接图的邻接关系实现近邻传递,重复上述过程直到检索到的最近邻个数满足指定的阈值为止。基于二级邻接图的不完全检索很好的解决了大规模检索的实时需求。基于内容的大规模图像检索需要研究的问题还有很多。在图像描述符方面,如何融合多种视觉特征用于生成图像描述符以更好的表达图像内容是需要进一步研究的问题。在快速最近邻检索方面,基于哈希的方法虽然速度较快但普遍精度较低,如何利用语义信息提高基于哈希的近似最近邻检索精度是另一个需要进一步研究的问题。