论文部分内容阅读
随着Internet的迅猛发展,不可避免地使人们对有用信息的查找产生了巨大困难,因此文本挖掘的发展前景十分广阔,而文本聚类是文本挖掘的一个重要的组成部分。文本聚类是聚类分析领域的一个重要研究分支,是聚类方法在文本处理领域的重要应用。但是文本聚类也遇到一些比较普遍的问题如文本对象的高维性,一个文本集可能会有几十万个词汇来表示;文本对象的稀疏性,很多词语很少被用到;文本对象词的字面关系和潜在语义关系很难被挖掘出来。本文首先回顾了文本聚类中文本预处理,文本表示模型、文本相似度计算、文档特征向量缩减、聚类算法和聚类效果评价等各个步骤的一些概念和方法。接着本文探究文本聚类中主要遇到的文本对象字面意义和潜在语义关系的挖掘问题,提出了几种基于语义特征向量加权的方法:基于词语词性的加权方法、基于词语位置的加权方法、基于词语词长的加权方法、基于词语相关性的加权方法和基于词语相似度的加权方法。词语与词语词之间的相关度就是指两个词语之间同时出现在一定语言环境中的概率大小。一般我们用文档同现频率、段落同现频率和句子同现频率来衡量。实验研究发现,段落同现频率刻画的词语相关度的向量加权对于最终的文本聚类效果提高是最明显的,大概能提高最终文本聚类效果10%左右。词语与词语之间的相似度指的是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。本文利用了基于《知网》的语义相似度计算方法,对特征向量进行基于语义相似度的加权。实验研究发现,基于语义相似度的特征向量加权虽然能够提高最终文本聚类效果,但是其效果并没有基于词语相关度的加权方法这么明显。本文也尝试着寻找了一些原因和解决的方法。最后本文对于把几种基于语义的加权方法叠加使用的可行性方法进行了探讨。实验研究发现,本文提出的这种叠加方案是完全可行的,比只使用任何一种语义加权方法的效果都要好,大约有5%的提高。