论文部分内容阅读
信息科学高度发达的当今世界,每时每刻都会有大量的数据产生,在我们的周围充斥着各式数据信息,这些数据往往是高维的,高维数据难以被人理解,因而从高维数据集中选择最具代表性的特征,挖掘最有用的信息成为文本处理领域研究的热点。本文把流形学习方法引入到中文文本分类,来解决对高维非线性的文本数据集的处理问题。文本预处理后,经过中文文本分词处理,得到一系列的词条,我们使用特征选择函数对特征词的权重进行计算,从数据集对应的语料库中删除掉噪声数据和冗余信息。而后可以将剩余词项作为特征项用于构建文档-特征空间矩阵。在文本特征空间矩阵的基础上,我们选用流形学习算法用于非线性的高维数据的降维。流形学习算法在非线性数据的降维处理方面比传统的非线性降维技术如:自组织映射算法、主曲线方法、生成拓扑映射方法和基于核主分量分析等有着先天的优势。本文主要研究了等距映射算法和局部线性嵌入算法这两种流形学习方法。等距映射算法作用于整个数据集,它力求保持数据点之间的测地距离;这样能保持整体上数据集的流形结构拓扑不变;局部线性嵌入算法则是在数据集从高维空间到低维的映射过程中保持其每一个局部领域内数据点之间的线性关系不变。这两种方法都是从局部的邻域着手,保持某些性质,进而保持数据集整体几何结构的拓扑性质。但是这两种流形学习算法使用时有共同的问题,即没有对于数据空间的特征维数估计的完备方法。此外,在本文中的特征项权重值的计算方式得到改进。对于一个特征项,我们既要求它能较好的表达文档本身的信息,又能包含类别的信息,以用于文本分类。一般特征权重计算方法不包含文本类别的信息,并因此而不能被用于分类。本文改进了传统的特征项权值计算方法,通过将特征选择函数整合进来,融合了类别的信息,提升了最终的分类效果。