论文部分内容阅读
图像分类和场景识别,是指将大量数字图像进行分类,并进一步检测出该图像的场景意义,用以代替人的视觉判读。在国防安全、智能车辆、医疗监护、智能机器人和视频压缩等诸多领域都具有广泛的应用前景和市场价值,是计算机视觉中极具挑战性的前沿课题之一,近年来吸引了国内外众多科研人员的兴趣。因而本课题的研究具有重要的理论意义和广泛的现实意义。
本文主要围绕图像分类和场景识别展开研究。重点研究了图像特征的分析提取,基于潜在语义的图像分类,并在此基础上使用关联规则实现图像的场景意义识别。
本文首先深入研究了比例不变特征的基本概念、核心思想、特征值的描述方法、提取方法与步骤,分析了其固有的优势和存在的不足。然后针对其存在的不足,分别从提取方法和描述形式两方面介绍了两种新的变体:主元分析比例不变特征和快速近似比例不变特征。
在图像方面,借用传统的文本分类思想,采用了潜在语义概率模型,将图像特征提取出来,二维的图像信息映射成视觉关键词集合,既保存了图像的局部特征又有效地压缩了图像的描述,使得自然语言处理的各种技术和方法能十分有效地应用于物体识别领域。并且,针对词元聚类问题,采用基于网格密度的聚类,它的指导思想是,只要一个网格的点的密度大于某个阈值,就把它加到与之相近的聚类中。
在场景识别方面,先针对特征匹配的问题,改进了常用的KD-Tree,使用了PCA,根据各维数之间的协方差,求出它们的主成份奉献率,再按主成份奉献率进行维数优先级排序,并在该基础上增加了KD-Tree各节点的权重。再通过使用类似于Apriori的算法,根据训练图像建立起关联规则库。接着,使用规则库对目标图像的进行场景识别。
最后,本文运用软件框架和设计模式的基本理论和思想,设计并实现了一个图像分类和场景识别的系统框架,里面包括了完整的图像分类识别过程,其中涉及图像采集、图像预处理、特征检测、提取与匹配、特征聚类、图像分割、复杂的数学计算、关联规则分析等一系列步骤,既可以作为科研实验之用,也可以方便地扩展为其它应用。