论文部分内容阅读
信息时代最明显的特征之一就是各类数据的爆炸式增长,如何从海量数据中发现有价值的知识,成为人们日益关注的问题。为解决这一问题,数据挖掘技术应运而生。聚类分析作为数据挖掘的核心内容,其应用价值得到普遍的认可。在聚类分析方法中,由于基于划分的聚类算法具有简单的思想以及较小的时间复杂度,因此具有较好的研究价值以及广泛的应用领域。 本文重点研究基于划分的聚类算法,利用基于划分的聚类算法分别聚类数值型和分类型数据。K-means和K-modes算法是两种常用的基于划分的聚类算法,本文分别对两种算法的不足进行研究,并提出了相应的改进算法。论文的主要工作如下: (1)利用密度思想以及最大最小法,提出了初始化K-means算法簇中心的新方法。由于传统K-means算法不能确定初始簇中心点,在聚类过程中,如果算法选择的初始簇中心点与实际偏差较大,聚类结果将会很不理想。本文基于密度的方法,提出了利用加权局部方差来计算样本邻域密度的算法。该算法首先选择具有最大邻域密度的数据点作为初始聚类中心点。然后,通过改进的最大最小法逐个获得初始中心点。在UCI数据集上对算法进行实验,结果表明本文提出的算法不仅具有较好的聚类结果,而且稳定性更好。 (2)将层次型聚类算法的思想运用到K-modes算法中,提出了针对分类型数据的改进算法。在二分K-means算法的基础上,结合了划分型聚类算法与层次型聚类算法的优点,对K-modes算法进行改进。为确定改进算法中K-modes算法的初始簇中心,将样本属性的频率通过加权作为样本的邻域密度,从而选择邻域密度高并且分散的样本作为初始簇中心。在改进算法中,选择划分簇的方法将会影响最终的聚类结果,本文通过定义簇内平均相异度,将具有最大平均相异度的簇作为划分簇。实验表明,该算法具有较好的聚类结果。