论文部分内容阅读
随着个人媒体设备的快速普及和互联网技术的出现,现实生活中图像的数量急剧增长,因此如何快速有效地组织和管理这些图像成为一个研究热点。与此同时,各种新兴技术的迅速发展导致了用户对图像检索与分类需求的不断变化,尤其是在图像含义理解方面的需求,但内容越来越丰富的图像加剧了底层视觉描述信息与高层语义视觉描述信息之间的“语义鸿沟”,这给图像的分类与检索技术带来很大的挑战。图像有着丰富的视觉描述信息,包括颜色、形状、纹理、局部、空间信息以及高层的文本描述信息等,这些用来解释图像的视觉描述信息统称为视觉描述子,视觉描述子对图像检索与分类有着重要的研究意义。本文重点围绕图像中视觉描述子的表示、提取和使用,对图像检索与分类进行研究,主要工作体现在以下两个方面:(1)提出了基于粗糙集推理规则和颜色互信息描述子的图像检索方法。为了减小不确定信息给图像检索结果带来的限制,在底层描述子到高层语义的映射已经完成并形成图像对象文本表示的基础上,根据粗糙集规则提取的相关理论,本文提出了基于粗糙集推理规则的图像检索模型。在此模型中,由于底层视觉描述子到语义层描述子的映射存在信息丢失,这造成了“语义鸿沟”的问题。为了克服该问题带来的检索不精确性,在基于粗糙集推理规则的图像检索模型的基础上,进一步引入颜色相关视觉描述子,提出了基于粗糙集推理规则和颜色互信息描述子的图像检索模型,该模型利用了颜色互信息描述子充分考虑底层视觉描述信息变化的优势,从而实现了精确检索。本文提出的这两种检索模型实现了多模态的图像检索,通过仿真实验证明了该方法可以有效改善图像检索的精度。(2)提出了基于空间差异描述子的图像分类方法。在图像分类中,比较著名的一种方法是空间金字塔匹配模型,该模型是词袋(BoW)模型在特征编码方面的一个拓展,它首先将一幅图像分割为逐渐增加的子区域,然后将每个子区域的直方图级联起来。然而,空间金字塔匹配模型并没有考虑子区域间的空间差异信息,为了利用这一空间差异信息,本文提出一种新的描述子--空间差异描述子,在此基础上提出了基于空间差异描述子的图像分类方法。该方法主要包括五部分:底层描述子的提取,稀疏编码,描述子集成,空间差异描述子的计算和线性分类。计算出的空间差异描述子主要用于连接空间金字塔匹配模型的词袋直方图。为了验证所提方法的有效性,本文在Scene15、Caltech101和Caltech256图像库上进行了实验,实验结果表明本文所提出的方法可有效地提高图像的分类精度。