基于SVM的文本分类应用研究

来源 :电子科技大学 | 被引量 : 26次 | 上传用户:linuxedit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化的不断深入,在生活中尤其是在互联网上,无时无刻不在产生着大量的信息,并且,这个产生速度也越来越快,进一步加剧了信息过载现象。如何自动并且高效地处理这些海量信息中所包含的有效数据,是一个重要的研究领域。文本分类是这个领域中的一个方向,主要目的是根据所给的文本,将其划分至所属的类别,以供进一步的处理。其应用广泛,方法多样,因而广受关注。在解决文本分类问题的方法中,主要方向分为三种:词匹配法、知识工程法、统计学习方法。支持向量机(SVM)属于统计学习方法,建立在坚实的理论基础上,有着不需要特定领域的专业知识、易于迁移、适合高维数据的处理、能解决小样本问题、泛化性能较好等优点,在文本分类、图像识别等分类问题的解决中有良好的表现。在这个前提下,本文主要研究的是通过SVM进行文本分类的理论和方法,以包括在分类过程中需要完成的各个环节,如样本集的选择、编码转换、中文分词、特征提取、文本的向量化等,并对整个流程进行系统化的设计和实现。在实现中,对分类算法进行改进,从而获得更好的性能。本文对于SVM理论本身进行了简单的介绍,其中包括分类的依据、分类器的求解,在此基础上分析了如何将其理论转化为应用的序列最小优化算法、多类分类问题的转化与决策方式等。为了能将SVM应用于文本分类问题,研究了常见的特征评估函数、卡方检验和TF-IDF。除了对SVM文本分类系统进行实现外,还进行了下面的工作:(1)在预处理的特征提取过程中,将卡方检验与TF-IDF进行组合使用并加以简化,提高了特征提取和向量化工作的效率;(2)在一般的SVM解决多类问题的决策方式基础上,本文提出了一种可进行非单一类别决策(NUD)的文本分类决策方式,可以用于样本集中同一样本所属的类别可能相容的情况,并对其分类器的组合形式进行说明,分析了这种方法的应用情形和优劣之处,并通过实验进行验证;(3)为了辅助泛化测试,并对用户提供比较方便的用于文本分类的接口,本文实现了基于标记窗算法的网页正文提取功能;(4)为了寻找最适合文本分类的核函数以及相关的参数,进行了交叉检验,获得了充分的测试数据并进行比较,还研究了惩罚参数对于特定的类别分类性能的影响关系。
其他文献
《中国精神疾病分类方案与诊断标准》将问题学生定义为品行障碍少年。他们在学习和品德上暂时存在一些问题,跟不上班级的整体要求,完不成课程标准规定的起码目标,在思想品德
随着我国国民经济的迅速发展,在市场经济的作用下,建筑工程行业在造价管理上也不断地实现了创新。在整个的建设工程实施过程当中,建设造价的控制贯穿于其中。能够将建设工程造价
人乳中含有多种具有免疫活性的细胞和可溶性免疫活性减分,可预防新生儿和婴儿发生感染;母乳中不同的蛋白质和活性细胞成分在新生儿和婴儿的肠道发育、免疫功能启动与成熟,以及抗
利用保护剂对乳酸菌的保护作用,通过梯度实验和正交试验选出保护剂的最佳添加量和最佳复配组合.使奶粉中的乳酸菌具有较高的活菌存活率.试验表明保护剂最佳复配组合为: 20 g/
通过试验设计(DOE)方法和JMP软件分析快速优化重组CHO细胞在生物反应器中的培养工艺,保证抗体高表达量的同时降低五聚甘露糖(Man5)水平。以培养基CD-CIM1为基础培养基,在细胞
青年大学生的知识体系搭建尚未完成,价值观塑造尚未成型,情感心理尚未成熟,外界环境及思潮对大学生价值观产生冲击,容易引发心理问题。应当从大学生的内在心理机制和深层的心
南宋时期,社会动荡不安,国家积贫积弱,百姓生活满目疮痍,而宋时学者仍沿袭汉唐以降沉迷于注疏解经的传统治学理路,逐渐背离孔孟以来“内圣外王”之道,较少关注修身养性和社会
针对某中低品位胶磷矿的矿石性质,从全国各地收集了多种脂肪酸原料,进行了原料的皂化、改性、耐低温等对比试验,最终筛选出菜籽油脂肪酸作为正浮捕收剂原料。对其进行了不同
以06J28橙色大白菜子叶段为外植体,通过根癌农杆菌介导CMS7311-orf224基因,探讨了潮霉素、头孢霉素、预培养时间、农杆菌浓度、感菌时间和共培养时间等因素对橙色大白菜遗传
建立了线性规划模型和多元线性回归模型,通过建立模型帮助酒店解决服务人员安排问题,得到最优人员安排方案。