论文部分内容阅读
聚类分析中,基于密度的聚类算法占有非常重要的地位,在信息的过滤、检索、医疗卫生和公共服务等各个领域都得到广泛地应用,是聚类分析的重点研究内容。本文对层次聚类算法的特征和密度聚类算法的特征进行研究,提出了基于层次的密度聚类算法,结果表明新算法聚类的准确率和聚类的效率均得到提高。根据Alex Rodriguez和Alessandro Laio提出的一种新的密度聚类算法CFSFDP(Clustering by Fast Search and Find of Density Peaks),提出了Map Reduce框架下该算法的并行化模型。和其他密度聚类算法一样,该算法在并行条件下能对复杂形状的聚类进行处理,并且数据中类的数量也不需要提前指定,同时,CFSFDP算法需要用户指定的参数较少。和需要迭代的聚类算法相比,该算法的运行时间得到很大程度地降低。本文主要的研究工作包括:(1)针对传统的聚类算法需要反复地对数据集聚类,且计算效率在大规模数据集上欠佳的问题,提出了一种改进算法,即基于层次聚类确定最佳聚类数和初始聚类中心的CODHD算法。该算法研究计算过程,对数据集不需要反复进行聚类。首先,通过对数据集进行扫描,进而获得聚类特征的所有的统计值;其次,采用自下而上的方法生成层次不相同的数据划分,对每个划分的数据点的密度进行计算,将密度最大的点定为中心点,计算中心点距离更高密度点的最小距离,将最小距离与中心点的密度作乘积,取乘积之和的平均值作为有效性指标,根据聚类结果,增量地构建一条属于不同层次的曲线;最后,曲线极值点处对应的划分,用来估计初始的聚类中心和最佳的聚类数。实验结果表明,相比较COPS算法,本文提出的CODHD算法,聚类准确率和效率均得到提高。(2)传统的CFSFDP算法能够很好地识别空间中任意形状和任意维度的聚类,但是当处理大规模数据集时,两点之间距离的计算耗费太长时间,为克服提到的缺点,本文提出了一种基于Map Reduce的CFSFDP算法,又称mr CFSFDP。mr CFSFDP只需要读取数据集一遍,因此运行时间很快,运行在多个节点的mr CFSFDP算法的每个阶段都划分为两步:Map阶段和Reduce阶段。在许多数据集上测试了这个算法,实验结果表明,此算法模型是可行的,并且在准确率和效率上都有很好的效果。本文数据集全部取自UCI真实数据集。根据经典的聚类模型,建立了两种新的聚类模型。文中与其他算法进行一些比较,证明了新提出算法在聚类方面具有更好的聚类效果。