基于SVM的中文文本分类算法研究与实现

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:xuwenhaiyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络信息的迅速增长,促进了文本自动分类研究的发展。在众多的分类算法中,支持向量机由于其坚实的理论基础和良好的分类性能,受到了研究者们的广泛关注。本文在研究支持向量机理论的基础上,对基于支持向量机的分类算法进行了深入分析与探讨,并调整与改进了传统的基于支持向量机的中文文本分类系统的结构,以更合理的方式实现了基于支持向量机的文本分类系统,改进了基于二叉树的多类支持向量机文本分类算法。概括而言,本文在研究已有支持向量机理论的基础上,主要作出了如下探讨:传统的基于支持向量机的中文文本分类系统,主要包括训练模块和测试模块。本文在实现分类系统时,对其结构作出了调整与改进,即将文本预处理作为一个单独的模块,而将中文分词、特征提取、特征选择和文本向量表示等过程集成到该模块中。并为训练文本和测试文本提供了共同的输入接口,而由预处理系统根据不同情况输出训练文本特征向量和测试文本特征向量。这样,在训练模块和分类模块中不必涉及到文本向量表示功能,有利于系统的开发与维护,使得系统具有更好的性能。在分类函数的训练过程中,本文使用可行性方向法对二次规划问题进行求解,并给出了求解后的算法描述。将支持向量机从两类分类问题推广到多类分类问题,是一个研究热点。在各种基于支持向量机的多类分类算法中,基于二叉树的多类支持向量机分类算法训练和分类速度相对较快,且解决了不可分问题,是一种很好的方法。本文系统研究和分析了基于二叉树的多类支持向量机分类算法,并在此基础上对其作出了改进,即当测试文本集规模较大时,对其先聚类再分类。改进的目的是,使测试文本不必总是从二叉树的根结点开始进行判断,而是有指导的代入分类函数中计算。在测试文本集规模较大,分类函数个数较多时,可以很大程度上增加分类效率,并加大了文本正确分类的概率。
其他文献
教育资源严重匮乏的西部地区恰恰是最需要通过某种方式来获取和利用这些资源的地区。随着以网络技术为核心的信息技术的发展和西部高校教育信息化进程的推进,数字的、开放的
<正>为什么有些人就是比其他的人更成功,赚更多的钱,拥有不错的工作;而许多人忙忙碌碌地劳作却只能维持生计;其实,人与人之间并没有多大的区别。不少心理学专家发现,这个秘密
期刊
《呼啸山庄》中爱与恨、宁静与风暴、自由与枷锁之间对立统一的二元思想,充分反映艾米莉性格中柔与刚的完美结合,体现了女作家独特的人生体悟和富有哲理的人生观。
目的:胰腺癌是消化系统常见的恶性肿瘤之一。因早期无特异表现,大多数的胰腺癌患者在就诊时已有局部的扩散和转移。尽管现在手术切除率有很大提高,但预后仍很差。故当务之急
轮胎作为车辆和路面之间连接的唯一部件,其力学特性很大程度上决定着车辆的动力学性能,如操纵稳定性、平顺性、安全性等,而且对汽车零部件的开发和底盘控制系统的设计有重大
<正>中医护理学是祖国医学不可分割的一部分,中医护理学原则是建立在整体观念,即人与自然环境不可分割及辨证的基础之上的,是根据中医关于病因、病机的学说及治疗原则制订。
为研究初中生学习压力与A型性格的关系,采用学习压力问卷和A型性格问卷对某市实验中学256名初中生进行调查。结果显示:初中生存在较大的学习压力,其中父母压力和自我压力水平
针对船舶辅锅炉系统实际训练中存在的局限性,以COSCO PACIFIC万箱集装箱船的辅锅炉系统为仿真对象,采用混合建模法建立了船舶辅锅炉的炉膛、汽包等数学模型,并应用VC++编程技
虚拟嗅觉是虚拟现实系统的重要组成部分,主要功能是让人们在虚拟环境里闻到逼真的气味,可极大地增强虚拟现实系统的感知性、沉浸性和交互性。回顾和概述了虚拟嗅觉研究的历程
<正>一、现在进行时的构成形式现在进行时态表示说话时正在进行或现阶段正在进行的动作,其构成形式为be+动词-ing。在其构成形式中be是助动词,同样有人称和数的变化,即要根据