论文部分内容阅读
随着互联网技术的不断发展,特别是信息技术的快速发展,网络上产生了大量不同形式的数据,尤其是非平衡数据。非平衡数据是指同一个数据集中某些类的样本数远远小于其他类的样本数,样本数量的悬殊,往往伴随着类别内样本密度的差别很大。k-means聚类算法是被人们使用最普遍的一种聚类算法,但是利用该算法来处理数据,容易选择孤立点作为初始类中心,影响算法的执行效果,因此,如何选择合适的初始类中心成为一个亟待解决的问题。针对非平衡数据,k-means聚类算法对于包含样本数目多的类别来说准确率较高,但对于包含样本数目少的类则很低。在非平衡数据集中样本数目少的类别往往隐藏更多的信息,因此,准确的找出少数类中的样本具有重要的意义。针对k-means聚类方法,本文对算法的初始类中心点的选择做了研究,并针对非平衡数据的聚类问题,对类簇间相似性度量的计算方法做了研究。本文主要取得了以下研究成果:(1)结合谱聚类算法中的自适应尺度和最大最小距离算法的思想,提出了基于稀疏度和距离的初始类中心选择算法。在选择初始类中心时不仅考虑了初始类中心周围样本的分布,还考虑了不同初始类中心之间的距离。最后将提出的初始类中心选择算法应用于k-means和fuzzy k-means聚类算法的初始类中心选择,在UCI和真实数据上的实验结果表明提出的算法是有效和可行的。(2)受类簇间相似性度量方法中平均链接的启发,提出了类簇相似性的计算方法,并提出了基于类簇相似度矩阵的类簇合并算法。也就是在求类簇之间的相似性时,在考虑每个样本的稀疏度的基础上计算了所有样本之间的平均相似度。最后将提出的类簇合并算法与改进初始类中心选择的k-means和fuzzy k-means聚类算法相结合,在非平衡数据集上的实验结果表明提出的算法是有效和可行的。本文对k-means聚类算法的初始类中心选择和非平衡数据的聚类问题进行了一些研究,提出了Max_Min_SD算法和M_C_SA算法,通过实验表明了算法的有效性。在取得研究成果的同时,本文还有一些需要改进和探讨的地方。比如,为何k-means聚类算法对初始类中心的依赖程度高于fuzzy k-means聚类算法。本文的研究工作只是一个尝试,深入的工作有待进一步研究。