论文部分内容阅读
当前人们正处于一个“信息爆炸”的时代。在线信息日益增多,其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆等等,很大一部分信息属于非结构化或半结构化的。面对网上海量的半结构化或非结构的文本信息,如何快速高效的进行分类组织管理,为用户准确提供有用信息,是所有信息工作者和研究人员迫切希望解决的问题。如何在没有分类指导的情况下对自由文档进行分类并标识,为越来越多的研究人员所关注。本文在对中文文本聚类现状研究的基础上,对中文文本聚类的关键技术进行了归纳性总结,其中包括文本自动分词、特征选取、特征重构、文本表示、文本间的相似性度量及聚类算法。分析了几种用于文本聚类的特征选取方法及其对聚类性能的影响;介绍了几种中文文本表示模型及聚类方法并指出其不足,重点分析了聚类中最常用的算法,以及各种算法对聚类结果的影响。针对中文文本处理面临的模型表示及语义关联的难题,本文着重从语义上分析文本。首先采用了词性过滤进行文本预处理的方法,删减了大部分无用的或对分类贡献不大的特征,其次通过特征语义聚类使得文本特征集更能体现文本的语义内涵,再根据词语频率TF(term frequency)和词语倒排文档频率IDF(inverse document frequency)选择文档的特征集,使得特征集更具有分类功能,经过以上三层处理之后,得到本文中高效低维的特征集,加快了聚类的速度并提高了聚类精度。建立了一种基于语义特征并体现特征分类强度的文本表示模型,将文档表示为一组特征词集合,利用特征词间的语义相似度计算文本间的相似度。这样真正从语义上具体分析文本之间的相似度,使结果更接近人的主观衡量,且能够将文本间的相似度量化,更利于计算机识别处理。基于这种文本表示模型,构建了基于知网语义相似度的聚类模型。最后用程序实现了该聚类算法,通过实验分析证明了本文提出的聚类方法的有效性。