论文部分内容阅读
随着计算机和互联网技术的飞速发展,网络上的多媒体信息呈现爆炸式的增长态势。如何分类和检索这海量的多媒体数据,是人们的迫切需求,也成为亟待解决的问题。基于内容的互联网图像检索,正是应这一需求而生的计算机视觉关键问题之一,拥有重大的研究意义和广泛的应用前景。 由于互联网图像的数量极为庞大,种类和表示的内容极为丰富,如何使用尽量简短的数据表示单幅图像,以及快速和准确地计算海量图像之间的相似度,对图像检索的效果至关重要。传统的视觉词袋(BoVW)模型是解决这一问题的常用框架,然而,该模型的检索性能上仍然有着可以发掘与提升的空间,比如利用视觉词典对底层特征量化时引入的量化误差,视觉词典常用聚类方法的一些缺陷,视觉词典中视觉单词的适用性等。 为了解决上述问题,本文的研究从对视觉词典的使用上入手,对视觉词典应用于不同图像集合的可迁移性和特征空间中特征描述子的分布进行探究,利用特征分布信息对视觉词典中不同视觉单词的重要程度进行评估,提高了以图搜图框架的检索效果。本文的主要研究内容与贡献总结如下: (1)本文研究了视觉词典的可迁移性。视觉词典的可迁移性指的是,利用某数据集产生的视觉词典,应用于其它数据集的检索效果。通常对视觉词典的分析仅仅集中于对视觉词典中视觉单词的数量多少的探讨。然而,视觉词典产生于哪个数据集合,也是十分重要的影响因素。我们通过实验,证实了这一现象的存在,并设计算法,提高了视觉词典的可迁移性。 (2)本文提出了基于特征空间信息加权的视觉词典方法。我们从产生视觉词典的常用聚类算法入手,分析和探讨了这些聚类算法的特点,考虑在聚类过程中利用特征空间中特征分布的统计信息,对视觉单词的重要程度进行衡量,来提高视觉词典的描述能力。该方法可以与传统的词袋模型和词频-逆文档频率(TF-IDF)加权方式紧密结合,提升视觉词典的可迁移性和视觉词袋模型的检索效果。