论文部分内容阅读
近年来,多媒体技术以及因特网的迅猛发展使得我们的生活被数以亿计的数字图像充斥着,并且这些数字图像的容量还正在以惊人的速度不断增长着,如何对这些图像资料进行智能化的管理成为现实生活中亟待解决的一大问题。在现有的检索算法中,大多使用图像的低层物理视觉特征,例如颜色、纹理、形状等来对图像进行描述,虽然能够描述出图像的基本内容,但是一旦涉及到图像的深层语义就变得无能为力了,因此如何更好的对图像进行描述成为图像检索领域需要解决的难点之一。Bag of Words (BOW)模型起源于文档检索系统并因其简单而高效的特点得到了广泛的应用,其核心思想是用一组相互独立的词汇对一篇文档进行描述。计算机视觉领域的研究者们尝试将同样的思想应用到图像处理和识别领域,从而提出了Bag of Visual Words(BOV)模型。本文在BOV模型的基础上,做了一系列研究,主要包括以下几方面:(1)由于Hellinger核方法比欧氏距离能够获得更好相似度度量效果,因此本文使用Hellinger核代替欧氏距离来度量SIFT特征描述子之间的距离。通过将SIFT特征描述算子转化成RootSift表示,可以实现SIFT特征描述算子的欧氏距离与Hellinger核计算的转换。(2)tf.idf权重计算方法是我们经常采用的一种权重度量方法,为了得到更好的权重计算方法,我们与其他三种权重计算方法进行了比较,分别为tf.χ2、tf.ig和tf.rf,通过四种权重计算方法效果的比较,得出了一种较优的权重计算方法。(3)通过图像特征描述子构造图像的高阶特征描述子,由于一个n阶特征描述子将是n个具有一定空间分布关系的特征描述子构成的,因此在n大于1时我们也称其为图像的高阶特征描述子,同时在计算过程中结合核函数方法,降低了计算复杂度。