论文部分内容阅读
随着软件、硬件和网络技术的快速发展,积累的历史数据成千上万,在这些数据中存在着大量有用的信息。数据挖掘就是用来从大量的、不完全的、有噪声的、模糊的、随机数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。在数据挖掘包含的众多研究领域中,聚类是一种很有用的技术,它能够在潜在的数据中发现令人感兴趣的数据分布模式。实际的应用对聚类分析提出了如下要求:可伸缩性、处理不同类型属性的能力、发现任意形状的聚类、用于决定输入参数的领域知识最小化、处理噪声数据的能力、对于输入记录的顺序不敏感、高维性、基于约束的聚类以及聚类结果的可解释性和可用性。
目前,已经提出了很多聚类算法,基本上分为以下几类:划分方法、层次方法、基于网格的方法、基于模型的方法和基于密度的方法。这些方法各有优缺点,能够针对不同的领域解决不同的问题。但在聚类分析中还存在一些有待解决的问题。
本文根据数据分布的特点,提出了一种基于空间单元密度的快速聚类算法SUDBC,该算法首先将被聚类的数据划分成若干个空间单元,然后基于空间单元密度将密度超过给定阈值的邻居单元合并为一个类。在存储空间单元时,通过建立哈希表提高查找速度。并通过实验验证了这一思想的正确性。实验结果证明了SUDBC算法具有处理任意形状的数据和对噪音数据不敏感的特点。通过与DBSCAN算法相比较,可以看出SUDBC是一种快速的聚类算法。该算法具有如下优点:(1)不用计算两点间的距离;(2)只需对数据进行一遍扫描,故具有近似线性的时间复杂性;(3)主要基于空间单元密度信息进行聚类,而空间单元密度信息要比实际数据小得多,它们可以直接存储在主存中,因此适合对大规模数据聚类。