论文部分内容阅读
聚类分析是模式识别、机器学习等研究领域中的一个备受关注的课题,在许多领域发挥着至关重要的作用,如信息检索与分类、市场营销以及互联网等。在面临高维空间和大数据量时,由于距离度量方法的限制,传统的聚类分析方法在超高维数据上往往不能得到很好的效果。近几年,聚类融合方法开始获得越来越多的关注,它的主要思想是将不同角度的聚类分析结果整合成一个统一的类别结构,以得到一个更鲁棒、更稳定、更准确的最终分类结果。本文对高维数据的聚类融合方法进行深度探讨和研究,从融合算法和高维数据子空间划分方法两个方面开展工作。主要工作如下:1.现有的大部分融合算法没有考虑基聚类结果的有效性,将他们平等对待,其精度易受低质量基聚类结果的影响。部分聚类融合算法虽然考虑加权策略,但仍然忽略了性能糟糕的基聚类结果对最终结果的负面影响。针对这个问题,本文提出了一种基于新的加权策略的聚类融合算法。其中,我们提出了一种新的基聚类结果有效性的评价方法。该方法基于每一个基聚类结果与整体结果的最优匹配得分来衡量其有效性,并根据其有效性赋予相应的权重。最优匹配得分的设计充分考虑基聚类结果中的集群信息,不仅包含了该基聚类结果中与整体划分在同一个集群中的样本匹配度,还包括划分在不同集群的样本匹配度。随后,算法进一步调整对融合分析贡献为负的基聚类结果的权重,从而得到最终权值向量。最后,根据基聚类结果及其权重构建局部加权的CA共生矩阵(co-association matrix)以分析集成之后的类别结构。2.具有稀疏性、局部相关性以及噪声等特点的高维数据对传统的聚类分析算法提出了巨大的挑战。而且高维数据中的集群通常存在于不同的子空间中,基于此,本文提出了新的高维数据子空间聚类融合算法。特别地,本文引入谱特征选择思想,采用基于竞争学习的聚类算法将高维数据的特征划分成不同的特征集群,使同一集群中的特征包含给定数据集的相似结构信息。然后以特征集群作为子空间,在每个子空间上单独执行聚类算法获得多个基聚类结果,最终采用前述所提出的加权融合算法生成最终的聚类结果。实验结果表明,本文所提出的算法在大部分数据集上得到较好的结果。