基于支持向量机的文本分类方法研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:lwl13751412186
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机与通讯技术的飞速发展迫切需要有效的分类方法对信息资源进行分类,而传统的分类方法又存在着费时费力等缺点,这就使得文本的自动分类越来越受人们的重视,支持向量机和文本分类问题有着良好的结合点,从而使得基于支持向量机的文本分类成为这个领域的研究热点。支持向量机是一种基于结构风险最小化准则的分类学习机模型,它的应用十分广泛。虽然支持向量机算法的性能在许多实际问题的应用中得到了验证,但是还存在着一些需要改进的地方,如:训练算法速度慢、测试阶段运算量大等。本文在研究文本分类和支持向量机理论的基础上,针对支持向量机在样本数目较多时其训练速度较慢的问题,用聚类方法处理支持向量机的训练样本,减少训练样本个数,提高支持向量机的训练速度;同时,针对支持向量机在样本维数较高时其训练和分类速度较慢的问题,用哈尔小波变换对训练样本和分类样本向量进行降维处理,降低支持向量机在模型训练和分类测试阶段的运算量,有效提高训练和分类的时间效率。本文在分析实验数据的基础上对上述两种方法的应用效果做了总结。聚类分析和小波变换都是对支持向量机用向量表示的样本进行加工处理。从应用的出发点来看,二者的目的都是为了提高训练和分类的时间效率,不同之处在于聚类分析使用的策略是降低样本的数量,小波变换使用的策略则是降低向量的维数;从应用的效果来看,小波变换的效果要好于聚类分析,虽然二者都在一定程度上降低了训练和分类时间,但小波变换能够更好的保证分类的准确率。
其他文献
误差反向传播神经网络(BPNN)具有很强的鲁棒性和容错性,作为分类模型在医学辅助诊断中得到广泛的应用。但是,BPNN是一种代价不敏感的分类模型。一种类别误分为另一种类别的代
如今,P2P技术已经广泛应用于网络的各个方面,其信誉问题成为了研究的重点。传统的网络安全机制如数字签名和数字水印技术虽然能保证交易的保密性和完整性,但无法对交易双方的
数字图像处理(Digital Image Processing)又称为计算机图像处理,它是指将图像信号转换成数字信号并利用计算机对其进行处理的过程。数字图像处理因易于实现非线性处理,处理程
随着我国各项法律制度的不断完善和健全,对庭审过程公开、公正高效、真实透明的要求及民众呼声日益增多,为了适应社会形势和经济法制建设发展的需要,加快科技强法步伐,实现公
石油是重要的能源,世界各开采国都十分重视石油的开采,都希望可以精确的分析出地质结构,更有效率的开采出更多的石油。因此精确的分析地质结构是十分必要的,通过分析地层中不同的
在供应链管理中,如何在供应链中各个企业之间实现快速、准确地信息共享已经成为关系到企业经济效益的一个至关重要的因素。实现供应链中信息共享的传统方式有文件传输、共享数据库、远程过程调用等,它们都存在着一定的局限。近年来,基于消息传递的ESB(Enterprise Service Bus)产品不断涌现,它为实现供应链中信息共享提供了一种新的解决方案。ESB是一种基于消息传递的中间件,它采用了“总线”这样
植被是地球上最复杂的生态系统,随着计算机图形学的发展,对植被生长建立模型并对其进行可视化仿真已经成为虚拟现实领域的研究热点。由于植被中植物的生长是一个非常复杂的过
软件测试是软件质量保证的关键,是软件开发中不可缺少的环节,也是软件工程的重要组成部分,软件测试的效果直接关系到软件产品的质量。然而,软件测试是一个十分复杂的过程,需
医学图像非刚性配准在临床诊断、放射治疗规划、图像引导手术、疗效评价等方面具有重要的应用价值,已经成医学图像研究领域热门专题之一。基于B样条的配准是一种常见的非刚性
该文研究了群体智能的多个模型,并将相关模型应用于知识发现.该文的研究目的,一方面是探索和验证群体智能在解决分布式问题方面的特性,另一方面拓展群体智能的应用领域,促进