论文部分内容阅读
随着成像传感器技术、网络技术和存储技术的快速发展,固定和在线图像库中的图像数目在急剧增加。有效的管理与快速的检索图像正面临着巨大的挑战。场景图像内容的合适表述和分类是解决这个问题的两个重要关键技术。在以往的基于特征的场景图像分类研究基础上,近年来基于视觉词汇的方法正形成热点。本论文围绕图像特征提取,基于视觉词汇的场景图像表述和多类型图像特征融合表述及其分类展开了研究。鉴于场景图像中存在大量的纹理内容,研究简单有效的新纹理特征是十分必要的。我们提出了一种基于多分辨率直方图矩的新纹理特征,它不仅能够有效的描述纹理的空间变化特征,降低了特征的维数,还增加了对噪声的鲁棒性。这个新特征有力的支持了场景分类的研究。在基于视觉词汇的图像表述上,我们开展了两个方面的研究:图像内容的多级主题模型和利用视觉词汇上下文特性的模型。前者,扩展了传统的LDA和pLSA模型,同时利用多尺度和多类型的特征,分别建立了两个场景图像的多级主题模型:MT-pLSA(Multiple-level Topic pLSA)和MT-LDA(Multiple-level Topic LDA),提高了场景图像分类性能。后者利用空间金字塔匹配,对视觉词对与词群的空间位置信息建模,得到了上下文金字塔特征;再利用SVM分类器获得了更好的场景图像分类结果。为了发挥基于图像特征表述场景内容的潜力,我们研究了融合多类型特征的图像表述方法。图像的多类型特征包括:基于图像块的频谱特征与空间频谱特征和基于整幅图像的全局空间特征和频谱特征等;融合方法是通过堆栈支持向量机建立渐进式场景分类方法实现。这个方法简洁稳定,场景图像的分类性能达到甚至超过当前流行的基于视觉词汇的方法。