基于支持向量机的中文文本分类的系统研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:chtg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息化的飞速发展使各种文本信息呈现爆炸式增长,这给人们的工作、学习和生活提供了极大便利,但淹没于大量无用、重复信息之中的有用信息很难通过人工的方法被全面准确地提取出来,文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息,因此具有广泛的应用前景。支持向量机是在统计学习理论的基础上发展而来的一种新的机器学习方法,在求解小样本、非线性、高维空间等问题上,它己表现出很多优于已有方法(神经网络,遗传算法等)的性能。目前支持向量机已成为机器学习界的研究热点,并在很多领域都得到了成功的应用,如人脸识别、文本自动分类、生物信息处理等。本文对基于支持向量机的中文文本自动分类应用进行了研究,主要工作如下:1.首先对文本分类过程中的各项关键技术进行了研究,这其中主要包括中文分词、特征选择、权重计算以及各种文本分类算法。特别对几种不同的特征选择方法进行了研究,通过实验结果分析和比较了它们各自的优缺点。2.分类器是文本分类的另一个重要环节,本文使用支持向量机作为分类器,从机器学习的基本模型出发,对支持向量机的基本理论、工作原理以及各种不同的实现算法进行了全面的阐述,特别对线性可分问题、近似线性可分问题以及非线性问题等不同支持向量机模型的工作原理进行了介绍。比较了不同核函数以及相关核参数对文本分类效果的影响。3.针对支持向量机算法进行中文文本分类时参数选择困难的问题,本文使用进化支持向量机算法GA-SVM,结合遗传算法的智能搜索特性和支持向量机的优良分类性能,对中文文本分类进行了研究。本文对GA-SVM算法的思想、实现流程以及相关实现技术进行了介绍,实验表明该算法对于中文文本分类具有良好的学习能力和分类效果。4.结合各项中文文本分类技术,设计并实现了一个基于支持向量机的中文文本自动分类系统。实验表明该系统具有较好的分类效果,有一定的实用价值。
其他文献
车载移动终端是车辆定位监控系统的重要组成部分,也是目前我国交通运输管理领域需求迫切、极具市场潜力和经济效益的应用项目之一。本文根据车辆监控系统的原理和车载终端的主
随着互联网技术的迅猛发展,网格逐步成为一种新的技术和基础设施,可以充分利用集成的资源。当网格应用的逻辑过程复杂、需要有各种时间和因果约束的时候,就需要网格工作流来
为了有效地实现协同作业环境中企业应用系统间的信息集成,提出了一种集成交换网络技术。集成交换网络技术通过构建十字交叉的信息交换矩阵,为进行信息交换的应用实体间建立起
图像哈希算法是信息安全和图像处理交叉领域的一项重要研究课题,已经在诸多方面取得成功应用,如内容认证、图像取证、水印嵌入、篡改检测等。实际上,它是一种图像表示的新技
自从Wiener滤波以来,估计问题包括滤波、预测、平滑已经成为控制、通信领域关键的研究课题。但是Wiener滤波很难实现信号的实时处理,而Kalman滤波正好弥补了这一缺陷,当信号
随着计算机软件业的不断进步和互联网络的高速发展,软件保护遇到了前所未有的挑战,在此背景下,通过隐藏信息的存在而保护信息的软件水印技术应运而生。作为防盗版的技术手段,
数据融合是许多传统学科和新兴工程领域相结合而形成的一个新的前沿学科,超越了在军事领域的应用,已经在许多领域中得到了广泛的应用。人工神经网络是计算智能和机器学习研究
随着社会的不断进步和计算机技术的不断发展,以计算机技术为基础的数据可视化技术有了很大地发展。现代企业运转过程中产生和记录的数据越来越多,其中包括了企业外部业务数据以
工业过程的现场监控设备类型和数量很多,普遍使用了大量的传感器、执行器和控制器来完成工业现场流程的监控和自动化。随着工厂生产自动化和管理信息化发展的要求,如何获取、
特征抽取在模式识别领域是核心问题之一,其主要任务便是从原始样本信息中提取出最有利于模式分类的有效鉴别信息。在生物识别中,基于编码的方法,由于其具有很多优势,如精确度