基于支持向量机的中文文本分类系统研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户：zxwlxy

【摘要】

：

在信息技术日新月异的今天,多数人在日常工作学习中都会接触到大量的中文信息,尤其是在互联网上,存在的中文网页更是数以万计。如何利用计算机技术快速有效的获取相关信息已

【作者】

：

马忠宝

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2006年期

【关键词】

：

文本分类中文分词特征选择支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在信息技术日新月异的今天,多数人在日常工作学习中都会接触到大量的中文信息,尤其是在互联网上,存在的中文网页更是数以万计。如何利用计算机技术快速有效的获取相关信息已经成为目前中文信息处理领域一个研究热点。中文文本分类是中文信息处理的重要组成部分,对中文信息数字化的实现和推广有重要意义,在文本识别、电子政务、搜索引擎、信息过滤等领域有着广泛和深入的应用。支持向量机是一种建立在统计学习理论基础之上的模式识别方法,由Boser、Guyon、Vapnik等人在COLT(Computational Learning Theory)-92上首次提出,在文本分类、图像识别、生物信息处理等领域都取得了成功的应用。相比较传统的分类方法,支持向量机在求解小样本、非线性、高维空间等问题上表现出了较好的性能。支持向量机根据结构风险最小化原则,具有全局最优解,同时提高了分类器的泛化能力。利用支持向量机得到的分类器具有很好的推广能力,即使训练样本很少,分类系统也可以达到很高的准确率。本文首先对中文文本分词进行了介绍,在常用分词算法的基础之上设计了一种双向匹配分词算法,有效的减少了歧义词对正确分词的影响。特征选择是文本分类的重要环节,本文对分类问题中的若干传统特征选择评估算法进行了分析,对其中的互信息和X~2等评估算法提出了改进策略。分类器设计是文本分类系统的核心部分,本文讨论了目前主流的分类器设计方法,重点对支持向量机方法进行了研究,详细阐述了线性可分、线性不可分、非线性等支持向量机方法的原理,比较了采用不同核函数的支持向量机分类器的分类效果。通过对一般分类器训练学习过程的分析,本文探讨了训练集选取对分类效果的影响,提出了动态训练集的文本分类算法,加强了训练集对分类器训练学习过程中所起的作用。最后,结合文本分类过程和支持向量机方法,设计并实现了一个基于支持向量机的中文文本分类系统。该系统分类效果的评价采用分类问题研究领域普遍采用的查准率、查全率和F测度值等指标。实验结果表明,该系统的这些评判指标总体上的平均值都很高,具有较好的分类效果。

其他文献

ICEM中PIM层的建模技术与工具实现

在企业信息系统软件的开发中,为了提高开发效率、增强软件的可复用性和可移植性等性能,越来越多的软件开发都采用模型驱动架构(Model Driven Architecture, MDA)方法学。但是

学位

MDA软件建模平台无关模型(PIM)业务对象模型转换

P2P电子商务系统信任机制的研究

Peer-to-Peer(P2P)系统的开放结构使其具有如下特性：适应性、自组织性及可扩展性，并能通过大量副本实现高可用性。因此，基于P2P环境的电子商务系统发展十分迅速。但是，P2P电子商

学位

P2P电子商务系统信任机制竞争优势抗攻击能力

基于J2EE的e-Learning平台的研究与应用

近年来，随着网络技术的迅速发展和J2EE平台的广泛应用，基于B/S的多层Web体系结构逐渐发展成熟起来。与此同时，这也促进了e-Learning平台的研究与发展。本文在分析e-Learning

学位

e-Learning平台J2EE架构B/S结构软件体系架构Web体系网络教学

基于虚拟超市的多Agent的网格资源管理研究

网格是继万维网之后出现的一种新型网络计算平台，是为用户提供全面共享各种资源的基础设施。由于网格中的资源具有分布、动态、异构、大规模、多组织等特征，因此网格资源的组织

学位

网格资源管理Agent虚拟超市GridSim

基于HLA/RTI和STK的GPS典型应用系统的仿真研究

信息战已成为未来高技术局部战争的主要作战样式，制信息权和制空权、制海权一样，成为战争胜负的关键。导航战是信息战的重要组成部分，现代战争精确快速的定位和导航是提高军事武

学位

信息战GPS导航接收机军事武器仿真管理

异构网络模拟的性能推算研究

随着Internet技术的发展,加强实验环境的建设,利用模拟(Simulation)技术辅助解决网络的鲁棒性、可维护性和传输可靠性等问题是当前研究的一个热点。网络模拟是进行计算机网络

学位

并行网络模拟并行模拟性能保守同步机制性能估计模型

面向主题的网络爬行器相关技术研究

随着互连网的迅猛发展,越来越丰富的信息展现在人们面前,但是面对海量的互联网资源,人们感兴趣的往往只是某一领域的专门信息。如何从纷繁芜杂的网络信息中快速准确地找到人

学位

爬行器面向主题分布式博客

本体在XML关联规则挖掘中的应用研究

随着数据库技术的迅速发展以及数据库管理系统的广泛应用，人们拥有和积累的数据越来越多。数据挖掘在最近几年里已被数据库界广泛研究和应用，而关联规则的挖掘在其中占有很重要

学位

数据挖掘关联规则本体XML

采用ELM的基于眼部状态的驾驶员疲劳检测方法的研究

目前，交通安全问题成为世界性的广泛话题，根据统计，大约有40％的交通安全问题来自疲劳驾驶。研究驾驶员疲劳监测方法，用以预防交通事故的发生，具有非常重要的现实意义。　　本文在对

学位

驾驶员疲劳检测方法眼部状态极限学习机

个性化Web搜索系统研究

随着互联网Internet的飞速发展,网络上的信息呈指数增长。如何能够更有效、更准确地找到自己感兴趣的内容,关系到我们能否充分利用这个巨大的信息资源,这已成为基于Internet

学位

信息过滤向量空间模型Web搜索服务用户兴趣个性化

基于支持向量机的中文文本分类系统研究

与本文相关的学术论文