论文部分内容阅读
针对信息挖掘中的文本自动聚类问题,提出了一种基于模糊向量空间模型的核聚类算法。首先对聚类文本进行模糊特征提取得到模糊特征项集,然后依据模糊特征项集对每篇文本计算特征项的文档频数,进而得出每篇文本的模糊特征向量。最后利用高斯核函数将每篇文本的特征向量映射到高维特征空间,在高维特征空间中利用核聚类算法实施文本聚类。该方法在特征提取时充分考虑了特征项在文档中的位置信息,使自动聚类原则更接近手工聚类方法。以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。