论文部分内容阅读
随着社会的发展,如今到处充满着互联网“大数据”的气息,这就使得电子文本数据信息变得越来越多。对于这些大量的文本数据信息如何处理,并从中快速、准确地找到有用的信息是当前需要解决的问题。文本分类技术的出现可以解决这一问题,但是数据维度过高会使文本分类的效率降低。特征选择作为文本分类技术最关紧要的步骤,它可以降低特征空间的维度,并提高文本分类的精确率。因此,本论文主要是对文本分类中的特征选择算法进行研究。论文主要是对文本分类的详细过程以及相关的技术进行了阐述,其中主要包含文本预处理、文本表示模型、用于降低特征空间维度的特征选择算法、以及用于文本分类的分类算法和用于评估其分类性能的评价指标,并对每一个步骤中的方法和模型都依次进行了详细地介绍。对于数据维度过高的问题,论文深入地分析、研究了相关的特征选择算法,并根据术语的分布情况提出了两个特征选择算法。实验结果证明,这两个算法可以有效提高文本分类的精确性。(1)提出了一种基于术语正率的特征选择算法(MTFS)。根据分析比较常用的特征选择算法,可以发现大多数特征选择算法都没有综合地考虑过文档频率、词频和术语在类中及类间的分布问题。根据此发现本文所提出的MTFS算法综合考虑了术语的分布情况以及在类中存在高度稀疏术语的问题。在实验中采用几种经典的特征选择算法与其作对比,并在四个常见的数据集上分别进行了实验以及验证。根据实验的结果可以看出,MTFS算法相对于其他算法来说其效果是比较好的。(2)提出了一个特征选择算法是基于词频重要度的(TIFS)。通过对比之前的特征选择算法发现,很多算法都忽略了一个重要的因素,那就是词频。所谓词频,就是指特征词在数据集的文本中出现的次数。词频对于在文本分类中进行特征选择时是很重要。此算法充分考虑了词频对于特征选择算法的重要性,并引入了词频重要因子和类间聚集因子,来衡量特征选择算法的有效性。在实验阶段,主要采用NB分类器和SVM分类器在四种数据集上将TIFS算法和五种优秀的特征选择算法进行对比。依据实验结果表明,TIFS算法能够使得文本分类的性能得以提高,它是一个不错的并且有效的特征选择算法。