论文部分内容阅读
文本聚类是在没有文本类别标记的情况下对文本进行分类,使同类别的文本间相似度尽可能大,不同类别的文本间相似度尽可能小。而今,随着信息的爆炸式增长以及学科类别间的交叉渗透,文本日益大量化和多样化,文本的类别隶属度界限越来越不明确。于是,文本模糊聚类渐渐成为文本聚类的另一个研究方向。本文从特征选择和模糊C均值算法两个方面对文本模糊聚类进行研究:1、无监督特征选择方法。特征选择方法主要有过滤式、封装式和嵌入式三种,本文结合过滤式和封装式方法,即词频-反文档频率(Term Frequency-InverseDocument Frequency,TFIDF)算法和遗传算法(Genetic Algorithm,GA)相结合,提出基于TFIDF-GA的无监督特征选择方法。该方法通过改进后的TFIDF公式计算特征权重,然后根据选择规则得到初始特征子集,将该特征子集作为遗传算法的初始种群进行迭代搜索。初始特征子集能够为遗传算法提供较好的搜索起点,加快搜索速度,同时遗传算法的自适应全局搜索能力能够启发式搜索到具有很强分类能力却没有包含在初始特征子集中的特征。2、模糊C均值聚类算法。模糊C均值聚类算法(Fuzzy C-Means,FCM)在基于目标的模糊聚类算法中应用最为广泛。本文对FCM算法进行改进,使用密度参数初始化聚类中心,能在一定程度上降低由于初始聚类中心选取的随机性对算法产生的误差;在FCM算法的约束条件中引入信息熵,更好地描述数据的实际分布情况。本文从特征选择和FCM算法出发,提出基于TFIDF-GA和改进的FCM算法的模糊聚类算法,实验结果表明该算法可以得到较高质量的聚类结果。