论文部分内容阅读
随着信息技术的迅速发展,很多领域都出现了容量庞大的数据管理系统,为帮助用户从这些含有噪声的海量数据中分析出有价值的知识,数据挖掘(DataMining,DM)技术应运而生。聚类(Clustering)作为数据挖掘和模式识别的主要方法之一,引起了人们的广泛关注。聚类算法是一种挖掘数据结构的有用工具,已广泛应用于文本检索及分类、图像分割和处理、模式分类等众多领域。 传统的聚类算法主要有K-means、K-medoids、K-prototype、PAM、CLARANS、DBSCAN、CURE、ROCK、谱聚类算法等。这些经典聚类算法都是用静态模型来挖掘聚类,只针对数值型属性数据或符号型属性数据进行处理,而对混合数据类型的数据聚类的效果不好。但是,实际应用中存在着大量由符号变量和数值变量共同描述的混合属性数据。因此,研究混合属性数据聚类具有重要的理论意义和应用价值。 现有的混合属性数据聚类算法不仅数量较少,还具有对于初始聚类中心的选择以及聚类数据的输入顺序敏感、易受噪声点和离群点影响、收敛于局部最优解或者获得全局最优解的代价较高、聚类结果随机性大、不稳定、准确性不够高等缺点,聚类性能和聚类质量都不理想,因此需要不断完善:(1)算法执行效率;(2)处理带噪声数据的能力;(3)发现任意形状的聚类;(4)初始点的选择;(5)聚类准确程度。 本文对聚类算法进行深入研究,针对混合属性数据聚类存在的问题,设计了一种基于相似权重和协同过滤的聚类算法对混合属性数据进行有效地聚类。算法首先将原始数据集划分为两个数据子集:数值型数据子集和字符型数据子集。然后,根据子集的数据类型应用聚类算法来得到相应的聚类。最后,将数值型数据集和符号型数据集的聚类结果结合起来作为符号型数据集,在此基础之上再利用过滤算法,得到最终的聚类。此算法可以有效地处理不规则边界,并且聚类的形状对于性能影响很小。本文还设计了一种基于图划分的混合属性数据聚类算法CGP(ClusteringbasedonGraphPartition)。算法将每一行属性值定义为一个图节点,计算图节点的相似性,采用一种自适应调节属性权重的方法,将数值和符号属性的相似性统一成一个互联合相似度矩阵。然后使用图划分方法中的NJW谱聚类算法对数据进行聚类划分,通过迭代寻优的方法调整数据之间的契合度,从而求得类内相似度最大而寻得最优解。实验结果表明,本文提出的混合属性聚类算法与其它方法相比具有明显的优势。