论文部分内容阅读
目前文本信息作为最重要的信息载体之一,正在以超乎人们想象的速度不断增长。为了能够有效地处理这类的信息,自动文本分类技术成为了海量文本数据分类的有效手段。但在文本类数据的处理过程中,通常是把文档中的词或词组都看作是独立的特征,由此就导致了特征空间中的向量可能达到成千上万维,同时高维的数据中可能含有很多不相关的信息,即我们常说的“维数灾难”,其已成为了文本分类领域中必须要面对的一个问题。利用特征选择方法来删去原始特征集中那些与分类无关的特征后,生成一个新的减少的特征子集。目的是为了对高维的特征空间进行降维,同时减少数据噪声的干扰,从而提高后续文本分类任务的分类性能。因此,本文重点研究了文本分类过程中的特征选择这个关键的部分。本文的主要研究工作如下:1.本文在深入研究了目前常用的特征选择方法后,针对现有的方法大多数只单方面考虑文档频率或词频,而并没有全面考虑到特征在各个类别的内部和类别之间的分布情况对特征重要性的影响。因此针对这方面的不足,本文提出了一种新的基于类别关联度的特征选择方法,综合考虑了特征在类内和类间的分布情况,同时结合了文档频率,词频和逆类别频率来构建新的评价函数,度量特征对文本分类的重要性。在复旦大学数据集和20Newsgroups数据集上采用支持向量机和朴素贝叶斯分类器,将本文所提出的特征选择方法与文档频率、信息增益、卡方统计以及基于词频度量特征重要性的四种经典特征选择方法进行对比实验。实验结果表明了本文提出的方法在提高文本分类的性能方面要优于其他四种方法。2.通过将本文提出的基于类别关联度的方法和潜在语义分析方法(latent semantic analysis,LSA)相结合,提出了一种新的两阶段的特征选择方法。第一阶段,利用基于类别关联度的特征选择方法来选取原始特征集合中最具代表性的特征,从而形成一个新的减少的特征子集。在第二阶段,针对目前大多数的方法都忽略了特征之间重要的关联关系,采用LSA方法,充分考虑到特征之间的语义关系以及降低了特征空间的维度,从而构建了一个新的语义空间。将文档频率、信息增益、卡方统计以及基于词频度量特征重要性这四种经典的特征选择方法分别与LSA方法相结合,形成了四种经典的两阶段特征选择方法。在复旦大学和20Newsgroups数据集上使用支持向量机分类器对上述五种两阶段特征选择方法进行对比实验,实验结果表明了本文提出的方法能够有效地降低特征空间的维度和提高文本分类的性能。