论文部分内容阅读
在数据挖掘领域,数据聚类分析是其中被广泛使用的技术之一。聚类分析是一个把相似的数据对象划分为一个簇的过程,簇的内部对象之间尽可能地相似,而簇之间的数据对象尽可能地相异。如今,聚类的方法已经在众多领域得到应用,比如数据压缩、模式识别、图像分割、知识发现和统计科学等。聚类算法是数据聚类分析的主要研究方向,为的是高效且准确地聚类数据。现有的聚类算法依据不同的聚类目的和方法应用的不同分为五种类型的算法。K-means是一种典型的基于划分的聚类算法,简单易行且快速高效。但是该算法要求必须预先给定聚类数,对初始聚类中心的选取依赖性大,并对孤立点和噪声敏感。此外DBSCAN是经典的基于密度的聚类算法,可以有效发现任意形状的类和过滤噪声。但是对于密度分布不均的数据集,往往得不到满意的聚类结果。本文在分析和研究K-means聚类算法和DBSCAN算法优缺点的基础上,针对不同类型的数据集,分别提出了改进的算法。当处理高维度的数据集时,针对基于划分的K-means聚类算法的k值的确定进行了改进;当处理含有变密度簇的数据集时,提出了一个新的基于密度熵的孤立-边界点集识别的聚类算法。为了验证方法的有效性,本文分别在合成数据集和真实数据集上进行测试。本文所做的主要工作有:(1)针对传统的K-means聚类算法的初始聚类数k值难以准确界定,本文提出一种新的确定k值的方法。利用数据挖掘中的特征选择及特征加权方法,并结合信息熵的概念,对经过预处理的数据计算每一维特征的熵之比,得到每维特征的重要性度量并选择重要的特征。经过基于信息熵的特征选择及特征加权,我们可以有效的减少数据的维度并保证了数据的质量。经过实验的测试和验证,我们提出的改进算法产生的聚类结果准确率较高。(2)针对传统的基于密度的聚类算法无法有效地对密度分布不均的数据集进行聚类,本文提出了一种基于密度可达和KNN的可自动确定参数值的聚类算法。一个点的所有K近邻数据点到该点的距离作为一个点的密度度量值。初始的聚类结果,最初的噪声点集以及并标记的边界点集合可根据边界度的绝对最小值而获得。而最终的聚类结果和噪声点集是根据边界点集合中的边界度的相对最小值而确定。该方法可自适应的针对每个类确定边界,对不同密度的类确定不同的标准。实验结果表明,所提出的算法可产生准确率较高的聚类结果。