基于支持向量机的文本分类研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:wangfang1896
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的不断进步,人们越来越多的依赖网络,每天产生的电子信息数以万计,如何对这些信息进行有效的归类成了一大难题。数据挖掘技术的出现给人们指引了一条解决文本分类的道路,其中文本自动分类技术就是数据挖掘中的一个重要的分支。伴随着人们对文本分类方法不断的了解,越来越多的方法应用于文本分类,如:朴素贝叶斯方法、K近邻方法、最大熵方法等,目前有一种新的方法学者们研究的是如火如荼,那就是支持向量机方法[1,2]。支持向量机是Vapnik最先提出,是一种统计学方法,支持向量机同样继承了统计学方法在机器学习中表现的诸多优点,同时支持向量机方法在解决小样本非线性问题时更表现出强大的性能。但是传统支持向量机方法主要是解决两类问题的分类,如何将其拓展到多类分类是很多学者正在研究的重点,这也是本文研究的重点。本文在介绍文本挖掘和文本分类的相关技术的基础上,重点介绍了几种多分支持向量机的构造方法,分析他们的优缺点,然后提出了一种改进的多分支持向量机,并通过实验验证了其在文本分类中具有很好的效果。本文主要在下面几个方面进行了研究:①介绍了文本挖掘和文本分类的相关技术,包括:文本的预处理、文本的表示、文本的特征的提取和特征值的计算。本文中文本的表示方法使用向量空间模型(Vector Space Model, VSM),特征值权重的计算使用TF-IDF公式。在介绍完这些基础知识之后列举了几种常见的文本分类方法:朴素贝叶斯、类中心向量、K近邻、最大熵和支持向量机方法,分析和比较了这些方法的优缺点。②介绍了支持向量机的理论知识,分析和阐述了支持向量机作为一种统计学方法在机器学习中的优势。然后介绍了其用于分类的基本原理,和用于分类时常用技术:如向量空间的映射、核函数的选择等。最后重点阐述了几种常用的构造多分支持向量机的方法:一对一、一对多、决策导向非循环图和二叉树方法,分析了这些方法的分类的性能,然后着重阐述二叉树分类方法相对于其它三种方法具有更好的性能。③本文的核心部分是提出了一种改进的二叉树多分支持向量机的构造方法。在介绍改进算法之前,首先介绍了两种典型的二叉树生成算法:偏二叉树和完全或近似完全二叉树,比较了这两种二叉树在模型训练、分类准确性和分类效率方面的性能,这两种方法是各有所长。在分析完这两种二叉树构造方法之后介绍了一种改进的二叉树生成算法,改进后的算法构造出的二叉树结构比较符合样本的分布情况,这样使得分类的准确率有所提高,而且改进后得到的二叉树的整体结构类似于完全二叉树,所以又可以使分类的效率比较高。最后通过一个具体的例子说明了改进后的算法相比另外两种算法具有更好的性能。④本文的又一个核心部分是最后的实验,分为两个实验,第一个实验的数据来源于UCI数据库的数值数据,该实验在分类的准确率和模型的训练时间上对改进的算法、偏二叉树算法和完全二叉树算法进行了比较,实验的结果验证了改进算法的预期效果。第二个实验是将改进的算法运用于文本分类,实验的样本数据来源于门户网站上,已经确定好的类别,并将改进后的算法与朴素贝叶斯、K近邻、Rocchio、偏二叉树和完全二叉树算法进行比较,最后得出结论:改进的算法在分类性能上有所提高。
其他文献
无线传感器网络(Wireless Sensor Network, WSN)是一个由大量传感器节点以自组织和多跳方式构成的无线网络。传感器节点在电池能量、计算能力和存储容量等方面有限制,因此,如
随着信息科学和计算机技术的快速发展,形式化建模和代数分析方法对复杂控制系统的合理设计和高效开发显得越来越为重要,而Petri网是目前一种重要的形式化建模和分析方法,具有
闪存是二十世纪八十年代东芝公司发明的一款新型存储器,它具有低功耗、高抗震、高速、非易失、体积小等优良特性,这些优良特性使得其被广泛应用于便携式设备以及嵌入式设备中
本文分析了数据挖掘和聚类分析的研究现状,指出数据挖掘中聚类分析需要进一步研究和解决的问题,将按安全多方计算协议与聚类分析相结合提出分布式聚类隐私保护算法,并在此基
随着成像设备的发展以及人们对计算机视觉系统精度和稳定性要求的提高,彩色图像分割已成为计算机视觉系统中一个基础而又关键的步骤,如何快速准确的进行高分辨率彩色图像处理
单样本人脸识别问题已发展成为模式识别、人工智能和机器学习领域中的一个热点和难点研究课题。目前大多数人脸识别技术的研究仅集中在怎样提高人脸识别系统的准确率上,并且
计算机立体视觉研究的主要内容是如何利用计算机实现人眼的视觉功能,即利用摄像机获得的投影图像实现对现实世界三维场景的识别与理解。立体匹配是计算机立体视觉研究领域最
随着计算机硬件软件和互联网技术的飞速发展,网络上的各种信息急剧增长,已经成为人类有史以来信息资源数量最多、信息资源种类最全、信息资源规模最大的一个综合信息资源库。
网络服务质量(Quality of Service, QoS)属于一种网络安全机制,它具备疏通网络交通、保证网络传输效率、防止网络阻塞等优势。目前的网络技术,在提高网络传输速度、保证网络
在这个信息爆炸的的时代,以关系数据和XML形式存储、交换和发布的数字数据显著地增加,特别是在互联网上,这种呈指数的增长是前所未有的。当然,这两种形式的数据不仅可以让使用者