论文部分内容阅读
近年来大数据、互联网+以及云时代等概念的提出将数据挖掘技术推向了各行各业,聚类作为数据挖掘的重要方法被广泛应用于各个领域。随着数据规模的增大以及数据类型的多样化、复杂化,传统聚类算法面临着严峻的挑战。目前大多聚类算法都存在对参数依赖性高、计算量大的问题,针对这些问题,提出了一种高效的新型层次聚类算法。其次,现有聚类算法大多采用样本间的距离作为相似性度量,该相似性度量方法存在度量不准确、受噪音点影响大等问题。针对此类问题,提出了一种基于样本分布的相似性度量方法,在该相似性度量的基础上,提出了一种基于密度聚类和层次聚类的混合型聚类算法。本文的主要工作包括以下两部分:1.提出了一种高效的新型层次聚类算法。该算法由分裂和合并两阶段组成,分裂阶段将初始数据集作为一个类,通过多次分裂得到多于实际聚类数目的子类。在合并阶段将分裂过程中多划分的子类合并为正确的类。针对多数层次聚类算法计算量大的缺点,在分裂阶段提出一种根据统计样本分布找到最佳分裂位置的方法,该方法准确、高效并且避免了重复地计算样本相似性矩阵,从而大大减少了计算量。在合并阶段提出了一种带有标记检测的合并策略,该策略通过在分裂阶段中加入分裂标记和层次标记来记录分裂过程,从而在合并阶段可以避免不必要的子类合并检测。使用该策略可以大大减小合并过程的计算量,克服了一般层次聚类算法中间结果不可重构的缺点。本章算法准确、高效并且无需任何聚类参数,实现了完全无监督聚类。2.提出了一种基于密度聚类和层次聚类的混合型聚类算法。该算法包括两个聚类阶段,分别为第一阶段的密度聚类和第二阶段的层次聚类。密度聚类阶段在快速密度峰值算法的基础上提出了一种自动确定聚类中心的方法,该方法利用快速密度峰值算法中样本密度和距离的乘积以及该乘积的变化率作为指标,自动地选择大于实际类个数的聚类中心。该方法克服了快速密度峰值算法人工选择聚类中心容易错选、漏选以及无法确定聚类中心个数的问题。在层次聚类阶段主要是将密度聚类中多划分出的子类合并,在此基础上本文算法提出了一种基于样本分布的子类间相似性度量,该度量充分考虑了样本的分布情况,并且加入了噪音点处理部分,可以更加有效的度量子类之间的相似性。该算法根据密度聚类和层次聚类的特点,有效地将两者结合,提出了一种混合聚类算法。