论文部分内容阅读
场景分类是图像理解研究的热点,是研究人类理解图像语义含义的重要方向之一。近年以来,场景分类在医学图像的识别、计算机视觉、图像检索等领域具有重要的应用前景。随着时代的进步,人类所产出的数字图像数量越来越大,只依靠人工标注的方式对图像进行标注获取图像特征,然后再进行分类的方法已不能满足人类的需求,因此,自动化的场景分类的研究越来越重要。目前,场景分类的经典流程是:图像特征提取、构建视觉字典、选取算法分类等。其中构建视觉字典是场景分类中的关键环节之一,本文采用AP (Affinity propagation,吸引子传播)聚类算法自动获取视觉字典容量来构建,相对于经典的大量试验去获得的方法,效率显著提高。另外,本文选取了PLSA(probabilistic latent semantic analysis)算法构建概率生成模型进行场景分类。本文的主要工作如下:第一,本文介绍场景分类的相关背景知识和它们的研究意义,同时分析了聚类算法和获取视觉字典容量的研究现状。第二,本文给出了场景分类的基本流程图。介绍了获取SIFT(Scale-invariant feature transform,尺度不变特征转换)特征的过程、K-均值聚类算法和AP聚类算法,另外还分析了随机产生的100个数据点的聚类结果和比较它们的优缺点。同时详细介绍了PLSA算法。第三,本文深入研究提取SIFT特征的几种方法,并通过实验分析了采用均匀网格采样法和随机采样法来提取图像的SIFT特征的优缺点,最后得出采用均匀采样法更适合本文对场景分类的研究。第四,本文分别采用K-均值聚类算法和AP聚类算法获取视觉字典容量,然后用PLSA算法进行场景分类,并分析采用这两种方法的优缺点。经典的采用K-均值聚类算法需要大量的试验才可以获得码本,而AP聚类算法一次就可以自动获得码本,显著提高了场景分类的效率。另外研究PLSA算法和采用PLSA算法进行场景分类的过程以及研究了PLSA算法的输入参数k(主题数)的选取,通过选取不同的主题数进行实验,并分析每一次实验的结果,最后得出比较合理的主题数。第五,本文对实验结果进行分析。首先分析采用K-means聚类算法获得码本和采用AP聚类算法自动获得码本并进行的场景图像的分类的两组实验结果。结果表明,采用AP聚类算法获得码本的场景分类比K-means聚类算法获得码本的场景分类的识别率和效率都要高。然后分析在不同的主题数k的PLSA的场景分类的实验结果,作出它们各自的实验识别率的曲线图,从图中可知,当主题数为55时可以获得比较高的识别率。第六,对本文所做的工作做出了总结,并给出了后续的研究建议。