论文部分内容阅读
近年来,随着科学技术的进步,数据收集与数据存储的能力也得到了进一步的发展,从而使人们可以获取海量数据,如何从海量的数据中寻找有用的信息已经成为一个迫切需要解决的问题,数据挖掘技术的产生为人们解决这一问题提供了方法。数据挖掘技术将各种数据分析方法与处理海量数据的算法结合,为探究新的数据类型和使用新方法处理旧数据类型提供了新的解决思路。数据挖掘技术的任务可以分为四种,其中聚类分析方法是数据挖掘技术中应用最为广泛的一个分支,在应用统计学、信息检索、生物研究以及商业等方面都有应用。Chamelcon聚类算法是一种凝聚的层次聚类算法,它使用有效的图分区算法将数据的初始分区与一种层次聚类方案相结合,利用一种新颖的相似性度量函数将图的子类组合在一起以获得最终的聚类结果。Chameleon算法可以适用于不同形状、密度和大小的数据集,但它仍存在一定的局限:Chameleon聚类算法在多个关键阶段需要确定参数,聚类结果对参数较敏感;算法中使用距离度量相似性对于高维数据而言不太适用,导致最终聚类结果较差。本文主要对Chameleon聚类算法进行了相关研究,具体研究内容和研究结果如下:1.提出了基于自然邻居的Chameleon聚类算法(NN-Chameleon算法)。针对传统的Chameleon聚类算法在第一阶段对原始数据集进行稀疏化,创建k近邻图时需要人工输入参数k;在合并子簇时需要人工指导算法终止以及未处理噪声点的影响等问题,本文提出了一种基于自然邻居的Chameleon算法。首先,在稀疏化阶段利用自然邻居的概念创建自然邻域加权图;然后,在图划分阶段利用自然邻居改进的密度峰值算法进行图划分,将自然邻域图划分成初始子簇;最后,引入社区复杂网络结构划分中的模块度确定最终聚簇个数指导子簇合并。将本文改进算法在UCI数据集和合成数据集上进行实验,并与五种聚类算法进行比较,实验结果表明:本文算法在三个常用的聚类评价指标上的结果更好,聚类效果更优。2.提出了基于共享邻居的Chameleon算法(SNN-Chameleon算法)。传统的Chameleon算法在对高维数据集进行聚类时,由于距离度量相似性已不再适用,导致最终的聚类结果较差。本文引入共享邻居的概念,使用共享邻居相似性对数据对象进行相似性度量,创建共享近邻加权图;然后使用递归二分法和Flood Fill方法对其进行图划分得到大小基本一致的子簇;最后,根据第一截断法利用聚类过程得到的树状图特点指导度量函数进行子簇合并,得到最终的聚类结果。通过实验将本文算法、Chameleon聚类算法以及M-Chameleon聚类算法进行对比,实验结果表明:本文算法对于高维数据集的聚类具有一定的优势。