论文部分内容阅读
近年来,由于数据采集技术和存储技术的高速发展,以及计算机网络的普及,产生了大量的高维数据,“维数灾难”使得高维数据的聚类问题成为数据分析领域内的一个挑战性问题,从而受到了学者们的广泛关注。线性判别分析(Linear Discriminant Analysis,LDA)是一个经典的监督降维和特征提取方法,最新的研究进展将LDA集成到聚类算法中来提升聚类方法对高维数据的聚类性能,这类聚类方法统称为自适应判别降维聚类(adaptive discriminative dimensionreduction clustering,ADDRC)。由于思路的新颖性和方法的有效性,ADDRC受到了国内外众多同行的关注,迅速成为聚类分析研究的热点。本文对ADDRC的模糊拓展版本进行了系统的研究,主要工作概括如下:1.指出FLDA-SFCA[66]存在的推导漏洞,重新提出一种基于模糊线性判别分析(Fuzzy Linear Discriminant Analysis,FLDA)的自适应判别降维模糊聚类算法:FLDA-FCS。FLDA-FCS利用FLDA对原数据降维,利用FCS(fuzzy compactnessand separation)聚类算法对降维数据聚类。交替运行原数据空间的FLDA和降维空间中的FCS,FLDA-FCS通过对降维数据聚类来实现对原数据的聚类。与FLDA-SFCA比较,FLDA-FCS具有更加明确的运行机理,并且可以利用多维判别矢量。FLDA-FCS可以看作是一种可以自适应特征提取的FCS算法。实验结果表明:FLDA-FCS的总体性能优于FCS,FLDA-SFCA和经典模糊c-均值聚类算法。2.提出一种形式简单的模糊线性判别分析(FLDA)的准则函数,并给出其针对高维数据的高效算法。所提出的FLDA与最大熵模糊聚类算法(MaximumEntropy Fuzzy Clustering Algorithm,MEFCA)关系密切:都是最小化模糊类内散度和最大化模糊类间散度。基于这一事实,将所提出的FLDA与最大熵模糊聚类算法组合,进而提出一种自适应判别降维模糊聚类算法:FLDA-MEFCA。FLDA-MEFCA是已有的LDA-HCM[63]的一个有效的、自然的和简单的模糊拓展形式。与LDA-HCM比较,因为软决策策略的引入,FLDA-MEFCA能够给出数据的模糊划分,而且对数据有更强的适应性。论文给出FLDA-MEFCA针对高维数据的有效算法,给出FLDA-MEFCA的收敛性证明。大量真实数据上的对比性实验结果验证了所提算法的有效性。3.指出FMSDCA[68]存在的推导漏洞,修正了相关的结论,并重新提出一种基于模糊最大散度差判别准则(Fuzzy Maximum Scatter Difference DiscriminantCriterion,FMSDC)的自适应判别降维模糊聚类算法:FMSDC-FCS。FMSDC-FCS利用FMSDC对原数据降维,利用FCS对降维数据聚类。交替运行原数据空间的FMSDC和降维空间中的FCS,FMSDC-FCS通过对降维数据聚类来实现对原数据的聚类。与FMSDCA比较,FMSDC-FCS具有更加明确的运行机理。FMSDC-FCS可以看作是另一种可以自适应特征提取的FCS算法。实验结果表明:FMSDC-FCS的总体性能优于FCS,FMSDCA和经典模糊c-均值聚类算法。4.提出一种形式简单的模糊最大散度差判别准则(FMSDC),并给出其针对高维数据的高效算法。所提出的FMSDC与最大熵模糊聚类算法关系密切:都是最小化模糊类内散度和最大化模糊类间散度。基于这一事实,将所提出的FMSDC与MEFCA组合,提出一种自适应判别降维模糊聚类算法:FMSDC-MEFCA。论文给出FMSDC-MEFCA针对高维数据的有效算法,并给出FMSDC-MEFCA的收敛性证明。大量人造数据和真实数据上的实验结果验证了所提算法的有效性。5.鉴于已有的局部特征加权硬c-均值(local feature weighting hard c-means,LWHCM)聚类算法对噪声敏感,基于一种非欧氏距离,提出一种鲁棒的局部特征加权硬c-均值(robust local feature weighting hard c-means,RLWHCM)聚类算法。RLWHCM是LWHCM的一个自然的和有效的拓展形式。论文从鲁棒统计的角度,分析了RLWHCM和RLWFCM的鲁棒性。并给出RLWHCM的收敛性证明。人造数据和真实数据上的实验结果验证了所提算法的有效性。