论文部分内容阅读
聚类分析作为数据挖掘的一种方法,占有重要的地位。所谓聚类是一个将数据集划分为若干类(cluster)的过程,是否相似的度量是基于数据对象描述的取值来确定的。目前,传统的聚类算法只是在低维数据上取得了较好的效果,随着海量数据特别是高维数据的出现,这些聚类算法变得异常困难。因此,如何对高维数据进行有效聚类已成为数据挖掘研究中的热点。
本文针对高维数据聚类展开研究,首先从理论上说明了随着维数的增加数据无法在全维空间中密集,揭示了高维数据中的稀疏性和维灾的存在以及它们所带来的影响,并且把基于距离的高维数据聚类方法分为维规约、基于网格的子空间聚类算法、Bicluster方法和投影子空间聚类算法,同时对它们的算法思想作了描述。
本文主要对现有的投影子空间聚类算法做了研究,在投影子空间聚类算法的基础上做了三方面的改进:(1)对于每类在其相关空间中每维上对数据聚合程度进行评价,采用密度直方图的方法判别类中的每维是否为候选相关维。(2)对候选相关维提出了一种对异常噪声具有较好鲁棒性的均值(聚合中心)计算方法,可以有效的反映类中大部分数据的聚合特性,并且经过实验验证这种均值计算方法可以有效的消除噪声的影响。(3)把数理统计中假设检验的思想引入了候选相关维方差(聚合程度)的计算,并且给出了正态分布的假设条件下候选相关维方差的计算公式。
实验数据表明,本论文提出的方法可以有效地消除噪声的影响,取得了较好的聚类效果。关键字:聚类分析高维数据假设检验投影聚类子空间聚类