论文部分内容阅读
近几年来,各种现代启发式优化算法,如模拟退火算法、遗传算法、粒子群算法等,被应用到一些实际工程项目和科学研究的优化问题中并取得的不错的效果。其中,免疫算法显现出在数据挖掘应用方面的巨大潜力。
本文在继承K-modes给出的相似度的确立思想基础上,加以改进,解决了K-modes算法中存在的类内相似度偏低的问题,并采用一种基于免疫进化机制的搜索策略来全局搜索聚类中心,建立了一种基于免疫进化的分类型数据聚类算法——ICCD(Immune-BasedClusteringAlgorithmforCategoricalData)。
本文在UCI数据集上对算法的准确性和效率等指标进行了测试。实验结果表明,算法在一定空间使用下可以实现高精度聚类分类型数据,且对分类型数据的数据量及维数有很好的可伸缩性;更重要的是,在聚类精度方面,ICCD较K-modes有了明显的提高。