论文部分内容阅读
随着网络的快速发展和信息化技术的不断进步,各种数据以惊人的速度膨胀,其中以文本数据的增长最为显著,如何从这些海量的文本信息中找到有用信息,并进行分门别类,变得日益迫切。K-Means聚类算法特征之一是简单并且易于实现,通常被广泛地应用于文本聚类。因此,本文以K-Means算法为基础开展的主要工作如下:K-Means聚类算法存在的问题之一是对初始点选择具有敏感性。初始中心选取不当,容易造成陷入局部最优解和聚类结果波动性大的问题。结合国内外有关的研究方法,本文提出了一种优化K-Means初始聚类中心的方法,避免首次选取初始中心落在样本点上,同时可以融合最近高密度区域,在一定范围内扩大聚类中心存在区域。该算法根据密度和最大化最小距离的思想,首先选取相互间距离最大的K对高密度点,并以这K对高密度点的均值作为初始聚类中心,然后再进行K-Means聚类。在标准UCI数据集上验证了该算法的有效性,进而把该算法用于中文文本的聚类中,对降维预处理后的数据使用新算法进行聚类,实验表明可以取得一个更稳定且准确率较好的聚类结果。针对文本数据高维且稀疏的特点,使用传统的K-Means算法进行聚类分析时候,传统k-means算法的欧氏距离度量无法有效处理非线性数据,会耗费较长时间,聚类效果也受到影响。本文提出一种降维多核K-Means文本聚类算法,一是解决了高维问题,二是解决分布无规则的非线性数据样本聚类效果不佳的问题。算法首先用主成分分析对文本数据进行降维,再用多核K-Means聚类算法进行文本聚类。该方法通过组合核函数的学习,求解一个半定规划问题得出给定核函数的最优组合核函数,以提高核K-Means处理非线性文本数据的能力。实验结果表明本文算法效果优于传统的K-Means算法,并且基于多核组合核函数的聚类比传统单一核函数聚类获得更好的聚类效果。