论文部分内容阅读
基于内容的图象检索(CBIR)是一个复杂而又富有挑战性的问题。当前通常的研究思路是,通过提取图象的低级可视特征(例如,颜色、纹理、形状等)来表示图象的内容,但是这些所谓“内容”反映的只是图象的一些客观统计特性,并不能真正被人类视觉理解。我们发现,CBIR的本质是在自动提取图象低层可视特征的基础上,从图象库中找出与查询图象相关或相似的图象。这实际上蕴涵着一个基本前提——语义相关的图象具有相似的可视特征。这就使得图象语义分类成为可能。图象分类是一种受限的图象理解,目的是根据图象的可视特征将图象归并到某一语义类,从而实现图象语义特征的提取,这不仅有助于图象库的语义组织,而且能实现图象的自动标注,从而极大地改善图象检索的性能,使CBIR真正成为一种实用的技术。 基于以上动机,本文着重研究了如何从计算机自动提取的图象可视特征得到图象的高层语义特征,并以此为中心对图象检索相关问题进行了深入地探讨。下面简要介绍作者在论文研究期间所从事的主要工作以及取得的进展: (1)一种新的图象纹理谱描述子 本文提出的纹理谱描述子通过比较邻域内象素点灰度的变化来刻画象素点的纹理,而不是常用的绝对灰度值,使得提取图象的纹理谱特征成为可能;注重邻域内像素灰度的显著变化,能有效地刻画图象的粗糙度,这些特点都说明本文的纹理谱描述子和人类视觉对图象纹理的感知是一致的。 (2)用最大权二部图匹配度量图象的相似性 本文提出了一种基于最大权二部图匹配的多区域图象相似性度量算法,它考虑图象的局部特征和图象的空间分布信息,在度量图象的相似性时,综合考虑图象各区域的内容,这种方法不但降低了由于分割不精确带来的影响,而且降低了用户操作的难度。 (3)非线性图象相似性度量 本文先用非线性映射Φ将特征向量从输入空间映射到高维特征空间,在不真正实现非线性映射Φ的情况下,用核函数代替点积,计算图象的相似度。其优点是在不增加计算复杂性的情况下显著提高了图象相似性度量函数的判别能力,图象检索实验证明了我们的观点。 (4)用支持向量机进行图象语义分类 本文利用支持向量机(SVM)在统计学习方面表现出的优越性能,结合图象的颜色、纹理特征谱,将图象归并到具有一定语义特征的类,取得了较好的效果。 (5)用基于核函数的判别式分析(KDA)解决多类问题 虽然支持向量机在图象分类中表现出了较好的性能,但是它解决的是两类问题,而现实中的图象类别是多种多样的,如果用两两分类的方法,结果所得到的是多个分类器,这对真实图象分类将会产生较大的干扰。本文提出了一种称为KDA(Kernel-based Discriminant Analysis)的图象分类算法,并给出了详细理论推导。它不但能解决多类问题,避免了贝叶斯判决后验概率的估计,而且用核函数的思想将判别式分析从线性情况