论文部分内容阅读
随着数码成像产品和大容量存储设备价格的日益低廉,每天都会产生成千上万的数字照片,导致互联网上多媒体信息的数量呈爆炸性增长。此外,图像搜索引擎(如Yahoo!、Google)和在线照片管理与共享应用软件(如Flickr),促使图像信息资源在网络环境中随处可见。网络用户可以方便地建立自己的数字照片集,并在线与他人共享和交流。但如何高效地表示、索引和检索Web图像,有必要分析图像的内容,挖掘隐含在图像中的语义信息。基于语义的图像分类是从海量的Web图像中发现有用信息的重要途径,具有巨大的应用前景。当前,图像分类虽然在低层视觉特征的提取上较为成熟,但高层语义信息获取的有效性却常常无法满足实际需求。其次,Web图像通常具有大规模、高维数、非线性的特性,并且在内容上又表现出丰富性和多样性。因此,基于语义的Web图像分类既是一个迫切需要解决的关键问题,也是一个极具挑战性的研究课题。本文针对当前Web图像分类中存在的问题,提出了相应的解决方案,获取了一定的创新性成果。本文的主要贡献概括如下:(1)为了缩短存在于图像的低层视觉特征与高层语义信息之间的“语义鸿沟”,首先按照语义信息的抽象程度给出了一个三层的图像语义模型。然后,基于该模型,阐述了用来表述图像内容的具有代表性的语义信息表示方法。最后,从分析Web图像的特点入手,深入研究图像差异性产生的原因,这是获取高效的Web图像分类方法的前提。(2)图像特征优化是处理Web图像分类中的高维图像数据的重要手段。图像特征优化可被形式化定义成一个五元组模型。采用邻域重建和半径递增搜索策略,提出了一种基于球状邻域的局部线性嵌入(GNLLE)。GNLLE不仅适用于稀疏数据集,而且具有较强的抗外界噪声能力和良好的拓扑结构稳定性。由于非线性维数约简通常采用基于点对的相似性计算去定义距离度量,又提出了一种基于球状邻域和路径聚类的局部线性嵌入(GNPCLLE)。由于GPNCLLE充分利用了数据相关性,有效减轻了数据集的整体拓扑结构的失真现象。在Web图像集上的实验结果显示了GNLLE和GNPCLLE的可行性和有效性。(3)准确地从Web图像中提取感兴趣区域(ROI)是提升Web图像分类性能的关键。提出了一种新的图像分割策略,包含粗分割和精分割两个阶段。在第一阶段中,采用基于颜色和纹理特征的块聚类方法将一幅图像划分成四个区域,并依照摄影构图法则将ROI从背景中区分出来。此阶段用来确定目标区域。在第二阶段中,利用形状信息和矢量方法构建了一个活动轮廓模型,图像能量来自于色度梯度,外部能量来自于三角形内心引力和补力。此阶段用来精确地提取目标的边界。通过对Web图像进行实验,验证了提出的图像分割方法的有效性。(4)面向图像集的批处理分类越来越受到研究者的关注。为了提高Web图像分类的准确率,提出了一个建立在图像语义的不同粒度层次上的分层次图像分类模型。定义了两种新的非线性流形:多类对象流形和单类场景模型。在对象层上的分类中,根据不同语义类别图像之间的类内差异和类间差异,利用扩展的局部线性嵌入(ELLE)算法构建了一个多类对象流形。在场景层上的分类中,依照不同场景为同一种语义类别的图像构建了一个单类场景流形,并基于区域增长和线性扰动,提出了一种线性子流形自动生成(LLSE)算法。提出的面向对象的分层次图像分类模型的性能在Web图像集上进行了测试。(5)针对Web图像分类的复杂性,提出了一种基于双流形学习的图像分类方法,将图像分类问题从高维空间转换到低维空间中解决。首先,利用正例类图像和反例类图像之间的显著差异,分开建立两个带有不同固有维数的非线性流形。然后,借助于GNLLE具有的相似性数据聚集的特性,确定各个流形的聚集中心。最后,应用在基于双流形的距离度量上构造的分类器,实现了基于全局的图像分类,克服了建立在整体流形上的分类方法无法反映数据之间真实关系的缺陷。在Web图像集上的实验结果表明了提出的基于全局的图像分类方法是高效的。