论文部分内容阅读
互联网和多媒体技术的快速发展使得以图像为代表的多媒体数据呈现爆炸性的增长。丰富的图像资源在带来巨大便利的同时,存在着亟待解决的问题:面对海量的图像数据,如何帮助人们从中快速地获取他们真正感兴趣的图像,尤其是那些很难用传统文本来清晰表达的图像。在此背景下,本文对基于内容的大规模图像索引与检索的主要关键技术进行了系统研究。针对特征硬分配的单词不确定性和单词疑惑性两个问题,提出了一种超球软分配方法。该方法为每个视觉单词构造一个以其为球心的超球体,半径为该视觉单词对应聚类中最远特征点到聚类中心的欧式距离。根据图像的局部视觉特征与各视觉单词对应超球体的空间位置关系将其分配到相应的近邻视觉单词。通过将超球体软分配与图像局部聚合描述向量计算方法相结合用于生成图像描述符,实验结果表明超球体软分配能有效地提高图像描述符的准确性。为了提高图像视觉特征的近似表示精度和降低图像视觉特征的存储空间需求,提出了一种增强型残差量化方法并将其用于构建多维倒排索引,有效地提高了构建倒排索引的效率。增强型残差量化通过训练多层码书来近似表示图像特征,并且在训练过程中,通过联合优化使每层量化器的码书在训练时都考虑图像视觉特征的总体量化误差并使其最小化。针对增强型残差量化对图像视觉特征进行量化过程中精确最近邻聚类中心查找的效率问题,提出了一种基于下限过滤的精确最近邻查找方法。该方法将图像视觉特征从高维空间映射到低维空间,并在低维空间中通过计算特征之间欧式距离的下限来过滤非近邻聚类中心,减少特征量化的时间开销。基于增强型残差量化,利用多层码书中聚类中心的组合关系设计了一种多维倒排索引结构,使得只需要少量的聚类中心就可以构建规模较大倒排索引结构。实验结果表明,较现有方法,增强型残差量化可以显著降低图像特征近似表示的误差并能提高图像特征检索的精度和速度。此外,基于下限过滤的向量量化方法可以有效地提高增强型残差量化的特征量化效率。为了提高图像视觉特征检索速度,提出了完全过滤自适应检索和不完全过滤自适应检索两种基于超球体过滤的自适应检索方法。根据查询特征所在的空间位置,完全过滤自适应检索通过构造以查询特征点为球心的超球体并自适应地计算半径,只对位于超球体内部的特征进行排序,从而过滤掉非相似特征。在此基础上,不完全过滤自适应检索将各倒排列表划分为若干个子类并将对应的聚类中心用于过滤非相似特征,从而降低了非相似特征过滤的时间开销。实验结果表明,在保证与现有方法具有相同检索精度情况下,完全过滤自适应检索和不完全过滤自适应检索都能明显减少查询时间。此外,不完全过滤自适应检索比完全过滤自适应检索具有更快的检索速度。基于内容的大规模图像索引与检索需要研究的问题还有很多。在图像描述符方面,如何同时结合图像的低层视觉特征和高级语义特征用于生成图像描述符以更好地表达图像内容是需要进一步研究的问题。在图像特征量化和编码方面,增强型残差量化方法是在图像视觉特征的原始维度上进行的,如何将高维图像视觉特征从高维空间映射到低维空间并运用增强型残差量化方法的同时,考虑映射图像视觉特征产生的误差需要进一步研究。在索引结构上,目前构建的倒排索引依赖于样本集训练,如何设计一个支持动态更新的倒排索引是另一个需要进一步研究的问题。