基于SVM的文本分类应用研究

来源 :电子科技大学 | 被引量 : 26次 | 上传用户：linuxedit

【摘要】

：

随着社会信息化的不断深入,在生活中尤其是在互联网上,无时无刻不在产生着大量的信息,并且,这个产生速度也越来越快,进一步加剧了信息过载现象。如何自动并且高效地处理这些

【作者】

：

伍岳

【出处】

：

电子科技大学

【发表日期】

：

2014年01期

【关键词】

：

文本分类支持向量机核函数惩罚参数非单一决策

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着社会信息化的不断深入,在生活中尤其是在互联网上,无时无刻不在产生着大量的信息,并且,这个产生速度也越来越快,进一步加剧了信息过载现象。如何自动并且高效地处理这些海量信息中所包含的有效数据,是一个重要的研究领域。文本分类是这个领域中的一个方向,主要目的是根据所给的文本,将其划分至所属的类别,以供进一步的处理。其应用广泛,方法多样,因而广受关注。在解决文本分类问题的方法中,主要方向分为三种:词匹配法、知识工程法、统计学习方法。支持向量机(SVM)属于统计学习方法,建立在坚实的理论基础上,有着不需要特定领域的专业知识、易于迁移、适合高维数据的处理、能解决小样本问题、泛化性能较好等优点,在文本分类、图像识别等分类问题的解决中有良好的表现。在这个前提下,本文主要研究的是通过SVM进行文本分类的理论和方法,以包括在分类过程中需要完成的各个环节,如样本集的选择、编码转换、中文分词、特征提取、文本的向量化等,并对整个流程进行系统化的设计和实现。在实现中,对分类算法进行改进,从而获得更好的性能。本文对于SVM理论本身进行了简单的介绍,其中包括分类的依据、分类器的求解,在此基础上分析了如何将其理论转化为应用的序列最小优化算法、多类分类问题的转化与决策方式等。为了能将SVM应用于文本分类问题,研究了常见的特征评估函数、卡方检验和TF-IDF。除了对SVM文本分类系统进行实现外,还进行了下面的工作:(1)在预处理的特征提取过程中,将卡方检验与TF-IDF进行组合使用并加以简化,提高了特征提取和向量化工作的效率;(2)在一般的SVM解决多类问题的决策方式基础上,本文提出了一种可进行非单一类别决策(NUD)的文本分类决策方式,可以用于样本集中同一样本所属的类别可能相容的情况,并对其分类器的组合形式进行说明,分析了这种方法的应用情形和优劣之处,并通过实验进行验证;(3)为了辅助泛化测试,并对用户提供比较方便的用于文本分类的接口,本文实现了基于标记窗算法的网页正文提取功能;(4)为了寻找最适合文本分类的核函数以及相关的参数,进行了交叉检验,获得了充分的测试数据并进行比较,还研究了惩罚参数对于特定的类别分类性能的影响关系。

其他文献

浅谈问题学生的疏导与转化策略

《中国精神疾病分类方案与诊断标准》将问题学生定义为品行障碍少年。他们在学习和品德上暂时存在一些问题,跟不上班级的整体要求,完不成课程标准规定的起码目标,在思想品德

期刊

问题学生疏导与转化策略

我国建设工程造价管理现状及改革前景探讨

随着我国国民经济的迅速发展，在市场经济的作用下，建筑工程行业在造价管理上也不断地实现了创新。在整个的建设工程实施过程当中，建设造价的控制贯穿于其中。能够将建设工程造价

期刊

建设工程造价管理改革前景

母乳喂养与新生儿早期免疫的启动与建立

人乳中含有多种具有免疫活性的细胞和可溶性免疫活性减分，可预防新生儿和婴儿发生感染；母乳中不同的蛋白质和活性细胞成分在新生儿和婴儿的肠道发育、免疫功能启动与成熟，以及抗

期刊

免疫活性母乳喂养新生儿早期细胞成分致病微生物肠道发育免疫功能

乳酸菌奶粉保护剂的研究

利用保护剂对乳酸菌的保护作用,通过梯度实验和正交试验选出保护剂的最佳添加量和最佳复配组合.使奶粉中的乳酸菌具有较高的活菌存活率.试验表明保护剂最佳复配组合为: 20 g/

期刊

乳酸菌保护剂活菌存活率

运用DOE方法降低抗体生产过程中五聚甘露糖水平的工艺开发

通过试验设计(DOE)方法和JMP软件分析快速优化重组CHO细胞在生物反应器中的培养工艺,保证抗体高表达量的同时降低五聚甘露糖(Man5)水平。以培养基CD-CIM1为基础培养基,在细胞

期刊

抗体生产细胞培养生物反应器高甘露糖工艺优化试验设计

哪些心理问题容易困扰大学生

青年大学生的知识体系搭建尚未完成,价值观塑造尚未成型,情感心理尚未成熟,外界环境及思潮对大学生价值观产生冲击,容易引发心理问题。应当从大学生的内在心理机制和深层的心

期刊

大学生心理健康教育途径

圣人可为不难为——论陆九渊“圣人观”的当代价值

南宋时期,社会动荡不安,国家积贫积弱,百姓生活满目疮痍,而宋时学者仍沿袭汉唐以降沉迷于注疏解经的传统治学理路,逐渐背离孔孟以来“内圣外王”之道,较少关注修身养性和社会

期刊

发明本心切己自反易简圣人

一种新型胶磷矿脂肪酸类捕收剂的改性与浮选性能研究

针对某中低品位胶磷矿的矿石性质,从全国各地收集了多种脂肪酸原料,进行了原料的皂化、改性、耐低温等对比试验,最终筛选出菜籽油脂肪酸作为正浮捕收剂原料。对其进行了不同

期刊

胶磷矿脂肪酸浮选捕收剂

橙色大白菜遗传转化体系的初步建立

以06J28橙色大白菜子叶段为外植体,通过根癌农杆菌介导CMS7311-orf224基因,探讨了潮霉素、头孢霉素、预培养时间、农杆菌浓度、感菌时间和共培养时间等因素对橙色大白菜遗传

期刊

橙色大白菜CMS7311-orf224基因遗传转化Orange heading Chinese cabbage CMS7311-orf224 gene G

酒店服务人员工作时间的安排

建立了线性规划模型和多元线性回归模型,通过建立模型帮助酒店解决服务人员安排问题,得到最优人员安排方案。

期刊

线性规划整数规划酒店管理

基于SVM的文本分类应用研究

与本文相关的学术论文