支持向量机在Web文本分类优化中的应用

来源 :武汉理工大学 | 被引量 : 5次 | 上传用户:xiaobaby2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web作为互联网上最重要的应用之一,它提供了便捷的文档发布和信息的获取,并且各地的信息资源聚集在互联网上,成为生活中不可缺少的一部分。根据官方资料的显示,在互联网上已经有过亿的Web文档,面对如此大的海量信息,Web用户往往无从下手快速获得自己所需的信息,所以迫切需要一种方法能够快速定位到有用信息上。由于这种需求者越来越多,关于Web数据挖掘技术便产生了。而现阶段的Web数据挖掘主要建立在信息检索、数据挖掘以及知识管理上,通过对大量的Web文档进行分析来获得隐含的知识和模式,从而使得人们更好的进行信息搜索。随着Web数据挖掘技术的发展,如今的文本分类技术能够改善文本信息杂乱状况,可以降低查询时间,提高搜索质量,快速有效地获取文本信息。因此文本自动分类技术越来越受到人们的关注。基于机器学习的文本自动分类已经取得了很好的效果,提出了多种分类算法,如k最近邻算法、朴素贝叶斯算法、决策树算法和支持向量机等。本文主要阐述了Web数据挖掘中文本分类技术,给出了Web文本分类的处理过程:文本预处理,特征降维,文本特征的表示方法等,探讨了支持向量机(SVM)分类算法在文本分类中的应用。重点研究了与贝叶斯中的最小误差率相结合的支持向量机来构造的一个多分类Web文本分类模型以及它的具体构造过程。经过实验证明,在确保分类器性能的条件下,选取训练数据样本进行训练,它的实验结果比传统的支持向量机分类器精度有所提高,具有较高的运行效率。
其他文献
随着网络的不断发展,安全的重要性越来越突出,原有的防火墙已经难以单独保障网络的安全,入侵检测系统开始发挥出不可替代的作用。然而,现有的入侵检测系统在有效性、适应性和
无线传感器网络从概念出现开始就引起人们广泛关注并被寄予厚望,在最近的几年内,各种无线传感器网络产品不断投入到生产、生活、科研等应用中,尤其近期温家宝总理关于“感知
IEEE 802.15.4标准是提供给低速率、低功耗和低成本设备使用的短距离无线通信协议并定义了低速无线传感器网络的MAC层和物理层规范。本文通过深入研究该协议标准,在低功耗的
汉字是历史悠久的中华民族文化的结晶,闪烁着中国人民智慧的光芒。汉字识别是一种难度非常大的模式识别。其中脱机手写汉字识别是目前最为困难也最具挑战性的研究课题。在办
随着Web技术的发展,非关系型数据库已经成为国际数据库界研究热点。同时,伴随着XML技术的发展,XML正逐渐成为Web上数据表示与交换的统一标准。因此,有关XML数据管理技术的研
电力变压器作为电力系统中最重要的输变电设备之一,它的性能直接影响到电力系统运行的安全和可靠。及时、准确地掌握其运行状态和故障情况,并采取相应的处理措施,对于提高电力系统运行的安全性、可靠性和经济性具有重要的意义。针对变压器的故障诊断,前人提出了很多的解决方法,但都有这样或那样的缺陷,不能迅速、准确的做出判断。本文针对目前变压器故障诊断技术在实际应用中所存在的主要问题,引入神经网络理论,将改进的粒子
学科建设是高等学校建设和发展的核心,是高等学校长期而艰巨的任务。学科建设的状态体现高等学校的整体办学实力、学术地位和核心竞争力,其内容涉及到学科队伍建设、科学研究、
由于互联网资源的“成长性”、“自治性”和“多样性”,传统的C/S模式的资源搜索方法逐渐不能满足发展需求。近年来,人们提出建立基于DHT(distributed Hash table)的对等网络实
虚拟化技术凭借充分利用宿主机资源、快速部署、高可用性等优势在企业中得到了广泛应用。近几年,随着企业信息化规模的不断扩大,虚拟服务器的部署规模也在不断扩大,相对于传
随着Wleb技术在互联网中发展,用户不再是简单地从网络中获取信息,而是采取更加主动的方式产生信息。由于用户数量的急剧增长,以用户为中心的信息产生模式,导致了互联网信息量