论文部分内容阅读
到目前为止,图像的分类识别依然是图像处理领域中的难点。因为现实世界是多样的和复杂的,获取图像的途径也是多种多样的,这就使得不同的图像相互之间差别很大,难以用统一的方法和模型描述。论文中将数据挖掘中的聚类分析方法应用到图像分类中。首先对基于密度和密度可达聚类算法(Clustering Algorithm Based on Density and Density reachable,CADD)进行了深入分析并进行了大量的实验验证,就CADD算法在大型图像数据集中应用暴露出来的不足做了四点改进。(1)重写了“计算并保存相异度矩阵”的代码,主要是为了降低保存相异度矩阵所占用的内存空间。(2)新程序引入了一个新的参数——簇个数阈值。(3)为了使原CADD算法能够更有效地处理变密度噪声和孤立点,改进了原有密度可达距离的计算方法。(4)新增了一种数据对象相似度度量的计算方法——余弦相似度方法。其次将改进了的CADD算法与传统的聚类算法K-means和层次聚类算法在真彩色BMP位图的分类中的实验结果作了对比分析。得出的结论是:(1)改进了的CADD算法与K-means和层次聚类算法相比,具有较高聚类精度、分辨率。(2)尽管在聚类过程中CADD算法也需要输入初始参数:密度参数σ和初始密度可达距离调节系数coefR,但实验研究表明,密度参数σ的变化对聚类结果影响不大;根据其定义,初始密度可达距离调节系数coefR(0<coefR<1)的选择取决于聚类精度,对领域知识的依赖性小。(3)由于在聚类过程中采用了自适应密度可达距离,通过自动调整聚类簇的密度可达距离使算法能够划分出变密度的簇和噪声点(孤立点),改进了聚类效果。(4)图像分类需要考虑的另一重要方面是聚类算法的空间复杂度和数据处理能力,因为图像的数据量是巨大的。我们在设计算法模型时考虑了这方面的重要性,利用像素点的平均采样提高了算法的效率。