论文部分内容阅读
随着社会信息化的不断深入,在生活中尤其是在互联网上,无时无刻不在产生着大量的信息,并且,这个产生速度也越来越快,进一步加剧了信息过载现象。如何自动并且高效地处理这些海量信息中所包含的有效数据,是一个重要的研究领域。文本分类是这个领域中的一个方向,主要目的是根据所给的文本,将其划分至所属的类别,以供进一步的处理。其应用广泛,方法多样,因而广受关注。在解决文本分类问题的方法中,主要方向分为三种:词匹配法、知识工程法、统计学习方法。支持向量机(SVM)属于统计学习方法,建立在坚实的理论基础上,有着不需要特定领域的专业知识、易于迁移、适合高维数据的处理、能解决小样本问题、泛化性能较好等优点,在文本分类、图像识别等分类问题的解决中有良好的表现。在这个前提下,本文主要研究的是通过SVM进行文本分类的理论和方法,以包括在分类过程中需要完成的各个环节,如样本集的选择、编码转换、中文分词、特征提取、文本的向量化等,并对整个流程进行系统化的设计和实现。在实现中,对分类算法进行改进,从而获得更好的性能。本文对于SVM理论本身进行了简单的介绍,其中包括分类的依据、分类器的求解,在此基础上分析了如何将其理论转化为应用的序列最小优化算法、多类分类问题的转化与决策方式等。为了能将SVM应用于文本分类问题,研究了常见的特征评估函数、卡方检验和TF-IDF。除了对SVM文本分类系统进行实现外,还进行了下面的工作:(1)在预处理的特征提取过程中,将卡方检验与TF-IDF进行组合使用并加以简化,提高了特征提取和向量化工作的效率;(2)在一般的SVM解决多类问题的决策方式基础上,本文提出了一种可进行非单一类别决策(NUD)的文本分类决策方式,可以用于样本集中同一样本所属的类别可能相容的情况,并对其分类器的组合形式进行说明,分析了这种方法的应用情形和优劣之处,并通过实验进行验证;(3)为了辅助泛化测试,并对用户提供比较方便的用于文本分类的接口,本文实现了基于标记窗算法的网页正文提取功能;(4)为了寻找最适合文本分类的核函数以及相关的参数,进行了交叉检验,获得了充分的测试数据并进行比较,还研究了惩罚参数对于特定的类别分类性能的影响关系。