论文部分内容阅读
文本聚类是数据挖掘领域中的一个十分重要的分支。文本聚类技术能够有效的将网页上的文本信息进行归类,方便人们在海量的网络信息中查找有用的信息,提高网络的服务质量。本文的研究内容是基于网页中的中文文本的聚类,通过聚类将网页上的文本具有一定相似度的文本归为一类。由于汉语文本通常是由汉语单字或者单词作为单位所组成的连续语句,它不像英文文本以空格作为分界标志,因此在对中文文本聚类之前,需要将整句话切割成为小的词汇单元。另外,还需要将文本中不是关键的词语进行去除,保留能够代表该文本内容的重要词语。然而文本聚类算法不能够直接在原始中文文本的形式上进行处理,因为这些文本内容是人类所使用的自然语言,属于非结构化文本,计算机很难对其语义进行处理。文本结构化处理就是将非结构化文本转化为计算机能够处理的结构化文本表示模式,根据文本的特点和文本处理的要求来选择合适的文本表示模型,而在本文中将选用向量空间模型(VSM),因为向量空间模型是将上下文表示为特征项和权值集合的向量,从而将聚类操作变换为向量空间中的向量运算。目前有很多种方法将文本信息转化为向量,在这里将选取经典的基于向量空间的特征权重计算方法词频-逆向文档频率算法(TF-IDF)对中文文本进行结构化处理,因为TF-IDF刻画了特征项在整个文本集的分布重要程度。虽然通过向量转换的文本能够被计算机处理,但是由于文本集合中的每个文本都是由大量的特征组成,它们的维数往往很高,这将会影响到文本聚类的效果。并且各自的文本向量可能存在于不同的向量空间,给计算相似度带来困难。所以在文本聚类中需要建立从原始特征空间到另一维数较低的特征空间的映射。这时就要对特征进行优化。而潜在语义分析(LSA)中的奇异值分解(SVD)不但能够将向量空间模型中的非正交的多维特征映射到维数较少的一个潜在语义空间中,而且能基本保持原空间的语义特性,从而实现对特征空间的降维和降噪处理。文本经过降维处理后就可以通过聚类算法进行聚类。目前聚类算法中基本分为基于划分方法、基于层次方法、基于密度方法和基于网格方法的聚类。在这些聚类方法中,本文选用了基于密度方法的聚类算法OPTICS (Ordering Points To Identify the Clustering Structure),因为该方法比起其它聚类方法,它可以发现不同形状的文本簇,并且还能过滤离群点,对网页文本的聚类效果更好。在聚类最后还通过单参数指数平滑方法对聚类结果进行处理,使得聚类结果更加准确。通过实验验证,该方法适用于对网页文本的聚类分析。