论文部分内容阅读
信息科学和技术的快速发展,互联网、多媒体、移动设备存储和传输的数据迅猛增长使这个高度信息化的时代充满生机与活力。以计算机和互联网为代表的高新技术,不断应用在现实生活的方方面面,产生了巨大的经济效益,提高了社会和人们生活的质量。在这些数据中,各种设备,尤其是移动设备,产生的图像是非常庞大的一类数据,并且数据量也在与日俱增,而基于图像的各种应用也成为了研究的热点,本文要研究的图像场景分类便是图像处理领域里一类非常有价值的课题。图像数据复杂多样,数量巨大,因此对研究也造成了很大困难。从图像分类提出至今,研究者已经提出了很多分类算法。而以潜在语义分析(Latent Semantic Analysis, LSA)、概率潜在语义分析(Probabilistic Latent Semantic Analysis, PLSA)和隐狄利克雷分布(Latent Dirichlet Allocation, LDA)为代表的主题分类模型是近年来研究的最多的,PLSA和LDA概率主题模型是本文研究的重点。本文首先介绍了图像场景分类的发展背景、研究现状及相关应用。接着介绍了本文用到的模型和技术,包括PLSA和LDA概率主题模型的工作原理,K近邻(K-Nearest Neighbor, KNN)和支持向量机(Support Vector Machine, SVM)分类器的工作原理,然后根据已有的模型和算法提出了改进模型,进行了场景分类实验并对结果进行了分析和对比。主要研究内容如下:一方面,本文提出了一种主题生成模型和判别模型混合的框架,将无监督的主题生成模型与有监督的分类器结合起来进行图像场景分类。在底层特征提取时,将颜色、空间和形状特征结合,量化形成视觉词和视觉词典。提取空间特征时使用了改进的链码法表示全局空间特征,而对于颜色特征,分别在RGB、HSV和Lab颜色空间分块提取局部颜色特征。PLSA模型作为中间表示层,被用来降低特征向量的维度,并得到训练图像或测试图像的视觉主题分布。在进行分类判别时,采用了一种混合分类器KNN-SVM,对通过PLSA模型处理后的潜在主题的概率分布进行分类判别。另一方面,本文改进了LDA模型并应用于图像场景分类中。特征提取时加入了SIFT特征,分块提取局部特征再计算全局视觉词,并与颜色、空间形状等特征融合;分类判别时应用自己提出的混合分类器KNN-SVM。进行分类实验时,取图像数据集中的一部分作为训练图像集,训练PLSA和LDA模型的最优参数,提取视觉词并得到潜在主题的概率分布;而图像集中剩下的部分则用来测试和检验提出的模型的分类效果。最后对实验结果进行了分析,比较了不同特征,不同分类器,不同主题模型条件下的平均分类准确率,比较了它们对分类效果的影响。实验结果表明本文的模型提高了分类平均准确率,并且这种实验对比有利于以后对场景分类进行更深入的研究。