论文部分内容阅读
随着科技的进步,高维高噪声数据聚类在数据挖掘研究领域中处于越来越重要的地位。聚类分析作为数据挖掘的一项主要研究课题,已引起广泛重视,同时产生了大量的理论和方法,并取得了丰硕的研究成果。尽管如此,聚类仍面临着许多问题,尤其随着数据挖掘技术的广泛应用,数据对象变得日趋复杂,大量的高维数据和高噪声数据不断出现,使得聚类研究面临着“维数灾难”和聚类结果对噪声敏感等问题的挑战。这要求改进现有聚类技术,同时提出新的聚类理论和方法以适应新的应用。本文对高维数据聚类以及健壮聚类等问题进行了较为深入的研究,主要内容包括以下几个方面:1.针对高维数据聚类任务中类簇的形状体积常存在差异,提出了一种基于高斯混合模型(Gaussian mixture model, GMM)的子空间聚类算法。高维数据中,样本类簇通常处于子空间,且不同类簇形状可能存在差异。许多现有高维数据聚类算法仅考虑前一个因素,而对不同类簇采用同一形状体积参数。针对此问题,扩展了现有GMM聚类过程,对每个类簇计算一个权矢量和一个局部方差,并利用它们分别鉴定类簇的主要特性,包括类簇的相关维度和形状体积,从而区分不同类簇。该问题通过在GMM目标函数中加入权矢量的负熵项及自适应系数得到求解。在仿真数据和真实数据上的实验结果表明了该算法在高维数据集应用中的优越性。2.针对高维数据聚类任务对噪声敏感的问题,提出了一种健壮的样本加权子空间聚类(Sample weighting subspace clustering, SWSC)算法。该算法基于样本加权思想,为每个样本分配一个反映离群程度的尺度参数,从而实现健壮聚类。各类簇所处的子空间继而由尺度加权的样本所确定。该算法首次将样本加权思想运用于硬划分类型的聚类算法。在二维仿真数据集、高维仿真数据集以及真实基因数据集上的对比实验结果表明,对于具有不同噪声比例的各种维度数据集,该算法均能取得较高的聚类精度,表现出较强的健壮性。3.从特征选择角度,针对高维数据聚类任务中不同类簇常具有不同相关特征子集的特点,提出了一种基于约束混合模型(Constraint weighting mixture model, CWMM)的局部特征选择聚类算法。该算法基于现有局部特征选择混合模型,将类簇在任一维度上不相关特定分布改进为与其他类簇共同服从的同一分布,从而捕获类簇间的共性分布。类簇在任一维度上的分布由相关固有分布和同一分布加权和组合而成,两种分布的权重高低决定相应维度参与识别类簇的相关程度。算法通过对相应模型的似然函数引入各类维度权重参数的约束项实现参数估计。那些对类簇固有分布具有较大权重的维度,即组成相应类簇的局部特征子集。实验对比了不同算法在仿真数据和真实数据上的聚类性能,结果表明所提算法在类簇重叠现象的高维数据上表现出较现有子空间聚类算法更强的性能。4.为了提高迭代优化健壮聚类算法对噪声污染数据的聚类质量,提出了一种基于K-Means均匀效应的健壮聚类初始化算法。K-Means聚类结果中各子簇样本量具有均匀一致的特点,当使用超过实际聚类数进行聚类时,将出现稀疏子簇范围大,稠密子簇范围小,以及相邻稠密子簇范围相当等现象。算法利用超过实际聚类数的K-Means聚类,通过合并邻近小子簇、丢弃稀疏大子簇,自动获得聚类初始簇并有效地消除噪声,从而实现健壮的聚类初始化。理论和实验证明了该算法的有效性。5.针对严重噪声污染数据聚类问题,提出了一种基于自适应多测度Lq范数的健壮聚类算法。该算法利用Lq范数求解数据中心时对噪声不敏感的特性,对各类簇采用Lq范数距离测度,且对不同类簇设定相应参数qk(qk∈(1,2]),以适应类簇中不同噪声污染程度的建模需求。通过为各类簇建立一个有关参数qk的非线性变换,自适应求解参数qk,并获得健壮类簇中心。此外,算法基于聚类所得中心,给出了噪声检测过程。在仿真数据和真实数据上的实验结果均证实了所提算法在健壮中心估计和噪声检测等方面的优越性。