论文部分内容阅读
作为一种重要的算法,聚类在数据挖掘、模式识别、图像处理及数据压缩等领域有着广泛的应用。它根据相似度将各个样本点划分到不同的组中,使得同一组中的样本点差异尽可能的小,而不同组中的样本点差异尽可能的大。基于密度的聚类算法是以数据集在空间中的分布稠密程度作为依据进行聚类的。它将聚簇看作是数据空间中由低密度区域分隔开的高密度区域,只要区域中某个样本点的密度大于指定的阈值,就把该样本点加入到与之相近的聚簇中去。随着数据挖掘以及机器学习技术的不断发展,众多学者提出了多种基于密度的聚类算法。本文着重研究了最新提出的一种密度聚类算法——密度峰值聚类算法,并且对其做了一些必要的改进,同时将其扩展到流形空间中,并在演化数据环境下进行了拓展和应用,主要研究工作和成果如下:(1)本文提出了基于测地线距离的密度峰值聚类算法。原始的密度峰值聚类算法在算法输入中需要提供已经预处理过的距离矩阵作为相似度矩阵,然而,对于不同的行业、不同的应用,选择不同的距离计算方法对于最终的聚类效果相差甚远,所以本文综合考虑选择了最能反映样本点之间实际距离关系的测地线距离来计算距离矩阵,提供统一的标准。其次,原始算法中需要用户使用鼠标手工地选择簇中心,一是不够方便,二是有失公允,对此本文采用了根据簇数目自动确定簇中心的方式,提高了运行效率。(2)本文提出了基于等距映射的流形密度峰值聚类算法。对于原始的密度峰值聚类算法在处理高维数据集时聚类效果不理想的情况,本文引入了等距映射算法对高维数据集进行低维映射,对维数进行约简,将数据集中的样本点映射到低维空间,提高了密度峰值聚类算法处理高维数据集的能力;并通过引入非负矩阵分解方法与等距映射算法进行比较,根据降维后的数据在密度峰值聚类算法中的聚类结果可以看出,基于流形的等距映射算法更为合适。(3)本文还提出了基于流形密度峰值的演化数据聚类算法。针对网络上层出不穷的应用,大量用户在网络上的各种行为都产生了海量数据,实时高效地对这些数据进行分析和处理愈来愈受到广泛的关注。在此需求背景之下,本文将基于等距映射的流形密度峰值聚类算法进行了进一步的拓展,应用于演化数据环境下进行实时高效的聚类处理。