论文部分内容阅读
随着信息化时代的不断进步,人们越来越多的依赖网络,每天产生的电子信息数以万计,如何对这些信息进行有效的归类成了一大难题。数据挖掘技术的出现给人们指引了一条解决文本分类的道路,其中文本自动分类技术就是数据挖掘中的一个重要的分支。伴随着人们对文本分类方法不断的了解,越来越多的方法应用于文本分类,如:朴素贝叶斯方法、K近邻方法、最大熵方法等,目前有一种新的方法学者们研究的是如火如荼,那就是支持向量机方法[1,2]。支持向量机是Vapnik最先提出,是一种统计学方法,支持向量机同样继承了统计学方法在机器学习中表现的诸多优点,同时支持向量机方法在解决小样本非线性问题时更表现出强大的性能。但是传统支持向量机方法主要是解决两类问题的分类,如何将其拓展到多类分类是很多学者正在研究的重点,这也是本文研究的重点。本文在介绍文本挖掘和文本分类的相关技术的基础上,重点介绍了几种多分支持向量机的构造方法,分析他们的优缺点,然后提出了一种改进的多分支持向量机,并通过实验验证了其在文本分类中具有很好的效果。本文主要在下面几个方面进行了研究:①介绍了文本挖掘和文本分类的相关技术,包括:文本的预处理、文本的表示、文本的特征的提取和特征值的计算。本文中文本的表示方法使用向量空间模型(Vector Space Model, VSM),特征值权重的计算使用TF-IDF公式。在介绍完这些基础知识之后列举了几种常见的文本分类方法:朴素贝叶斯、类中心向量、K近邻、最大熵和支持向量机方法,分析和比较了这些方法的优缺点。②介绍了支持向量机的理论知识,分析和阐述了支持向量机作为一种统计学方法在机器学习中的优势。然后介绍了其用于分类的基本原理,和用于分类时常用技术:如向量空间的映射、核函数的选择等。最后重点阐述了几种常用的构造多分支持向量机的方法:一对一、一对多、决策导向非循环图和二叉树方法,分析了这些方法的分类的性能,然后着重阐述二叉树分类方法相对于其它三种方法具有更好的性能。③本文的核心部分是提出了一种改进的二叉树多分支持向量机的构造方法。在介绍改进算法之前,首先介绍了两种典型的二叉树生成算法:偏二叉树和完全或近似完全二叉树,比较了这两种二叉树在模型训练、分类准确性和分类效率方面的性能,这两种方法是各有所长。在分析完这两种二叉树构造方法之后介绍了一种改进的二叉树生成算法,改进后的算法构造出的二叉树结构比较符合样本的分布情况,这样使得分类的准确率有所提高,而且改进后得到的二叉树的整体结构类似于完全二叉树,所以又可以使分类的效率比较高。最后通过一个具体的例子说明了改进后的算法相比另外两种算法具有更好的性能。④本文的又一个核心部分是最后的实验,分为两个实验,第一个实验的数据来源于UCI数据库的数值数据,该实验在分类的准确率和模型的训练时间上对改进的算法、偏二叉树算法和完全二叉树算法进行了比较,实验的结果验证了改进算法的预期效果。第二个实验是将改进的算法运用于文本分类,实验的样本数据来源于门户网站上,已经确定好的类别,并将改进后的算法与朴素贝叶斯、K近邻、Rocchio、偏二叉树和完全二叉树算法进行比较,最后得出结论:改进的算法在分类性能上有所提高。