论文部分内容阅读
随着互联网技术的快速发展和以智能手机为代表的智能移动设备的迅速普及,每天在这些设备上会产生大量的多媒体数据,图像数据占据了其中很大一部分,这就需要人们对这些大量的图像数据进行高效的存储以及管理。随着数据数量的不断膨胀,传统的图像数据库技术已经不能满足当前的需要,如何有效的存储以及管理海量图像数据已经成为学术界关注的热点内容之一,其中基于内容的图像检索技术(Content-based Image Retrieval,CBIR)逐渐成为人们关注的焦点,并已经成为新一代图像数据库所使用的主流技术。传统的基于内容图像检索技术大多使用图像的底层特征(如颜色、形状和纹理)来进行图像间的相似度计算,比较少的考虑到人眼的视觉注意力特点。所谓的人眼视觉注意力,是指人们在观察周围场景或者图像的时候,会自动有选择性的关注某些特定的目标对象,作为感兴趣或者重要的目标来分析处理,人眼的这种视觉注意力机制恰好和基于内容图像检索的目标相吻合,因此将人眼的视觉注意力机制融合到基于内容图像检索算法中对于提高检索的准确率具有重要的意义。本文深入总结和分析了基于内容图像检索技术的新特点,使用人眼视觉注意力机制来帮助检索算法提高对图像的分析和理解能力,并最终提高检索算法的准确率。本文研究的重点是利用图像的视觉显著性的特点和相关理论,围绕着图像底层特征的语义位置信息的提取问题、词袋模型中非目标对象的视觉单词的祛除问题以及目标对象中图像多特征的融合问题三个主要方面展开研究,本文的主要研究工作如下:1.以人眼视觉注意力机制为基础,结合图像的视觉显著性,提出了一种基于视觉加权空间金字塔模型的图像检索算法。该算法首先对图像进行多尺度下空间金字塔划分处理,并得到每个尺度下各分块的特征向量;然后结合反映人眼视觉特性的视觉显著性值,计算出各个尺度下空间金字塔的视觉权值;最后利用视觉权值对多尺度下空间金字塔的联合特征向量进行加权处理,并根据处理后得到的特征向量进行检索。2.针对传统词袋模型中由于视觉单词以及构建的视觉词汇表缺乏空间位置信息而影响算法准确性这一问题,本文提出使用视觉显著性值和视觉单词相结合,构造一个全新的可以反映出视觉单词空间位置信息的视觉词汇表,新构建的视觉词汇表考虑了视觉单词所在的空间位置,可以重点反映出图像中目标对象上的局部特征,尽量减少背景信息对于检索的影响。大量的仿真实验表明,新建的视觉词汇表确实可以有效的提高检索算法的准确性。3.使用基于内容的方法进行图像检索的前提是全面、深入的对图像的内容进行理解和分析,大多数词袋模型都采用一种单一的局部特征作为视觉单词,很显然这很难全面的描述图像的客观信息。本文提出了一种融合Sift特征和颜色特征的多特征词袋模型检索算法。该算法首先结合人眼的视觉注意力模型,对待检索图像进行分析和理解,并提取出图像中的目标对象,将其与周围场景分离出来;然后结合提取出的目标对象,分别计算词袋模型和和图像的颜色特征;最后将词袋模型和颜色特征结合到一起计算图像间的相似性。实验结果证明,该算法是有效的。