论文部分内容阅读
随着网络技术的发展,网络信息正在以几何级速度迅速膨胀。如何通过信息融合进行在线信息的处理,特别是进行数据量巨大的文本信息处理,已成为一个亟待解决的难题。文本聚类作为一种无监督的信息组织方法,在这一难题中发挥着重要的作用。文本聚类通过将大量文档划分到几个有意义的分组,使得同一个分组中的文档拥有更高的相关度,而不同分组间的文档则尽可能不同,从而达到对文档信息进行有效的组织的目的。本文研究了现有的文本聚类算法,分析并总结了每个算法的特点。引入关联规则中频繁项集的概念,研究基于频繁项集的聚类算法。最终提出了一种新型的采用最大频繁项集与K-means相结合的二次聚类算法,改进了算法的聚类效果。 本文通过建立文档数据库模型,进行最大频繁项集的挖掘。将包含相同最长最大频繁项集的文档聚集在一起,形成初始类簇。接着,提出一种新的基类选择算法筛选部分初始类簇,作为K-means算法的初始聚类中心。考虑到数据分布不均和类簇大小不一的特点,本文提出了二次聚类的思想:首先,通过最大频繁项集 K-means算法进行一次聚类,得到特征明显或规模较大的类簇,保存他们的类簇中心;然后,将这些类簇中的文档从文档数据库中去除,再次使用基于最大频繁项集的算法选择剩余文档的聚类中心。最后,结合一次聚类结果中的类簇中心,对所有未分类的文档进行 K-means聚类。本文的文本聚类算法的改进和创新点主要包括以下几个方面: (1)使用文档间共享的最长最大频繁项集进行初步聚类,提出最大频繁项集对类簇的表达能力的概念,设计准则不等式,进行基类的筛选。 (2)在一次聚类中,通过设置最小相似度阈值,改进了传统的K-means算法。同时结合二次聚类思想,达到尽可能识别所有类簇,减少由于类簇识别不完全而导致的误分类。 (3)整个聚类过程回避K-means聚类算法需要输入预定义类簇数目的难题,通过在类簇生成和选择的过程中设置参数的方式,达到自动获得类簇个数的目的。 最后,论文在多个语料集上验证本文提出的聚类算法。通过与同类算法的对比实验表明,本文的聚类算法在聚类纯度和F-值两个指标上都有5%-10%的提高;同时,实验也表明,本文的聚类算法能够得到与实际情况相近的类簇数目。