基于SVM的Web文本分类研究

来源 :上海海事大学 | 被引量 : 11次 | 上传用户:skyy2483
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着INTERNET的飞速发展,网上的信息越来越丰富,激增的数据背后隐藏着许多重要的信息。用户使用现有的搜索引擎浏览页面时,虽然能部分解决“资源发现”的问题,但精度不高,不能满足实际需要。更重要的是不能发现隐藏在海量Web数据背后的知识,造成了相对于海量数据的知识贫乏。为了在这些海量的、异质的、非结构化的数据源中提取感兴趣的、潜在的、有用模式和隐藏的信息,需要对Web文本信息进行数据挖掘,这就是Web文本挖掘。随着Web文本数据的迅速增长,Web文本挖掘己经成为了数据挖掘领域的一个重要的研究方向。目前主要的文本分类方法有;最近邻分类、贝叶斯分类、决策树、支持向量机、向量空间模型、回归模型和神经网络等。本文通过分析现有的文本分类,提出了基于改进SVM的Web文本分类方法。本文所做工作如下;(1)介绍了Web数据挖掘的基本概念、分类和方法,以及现有Web文本挖掘的具体过程和相关理论。(2)认真研究了统计学习理论的主要内容和支持向量机的基本原理。阐述了SVM研究与应用的现状,以及所面临的问题。(3)提出了一种改进的并行SVM算法,将其应用于文本分类中,并通过实验验证了其有效性。(4)提出了一种主动学习的SVM算法,将其应用于文本分类中,并通过实验验证了其有效性。
其他文献
目前,市场上流行的网络物理隔离器件硬件系统,往往基于工控机或者多片嵌入式芯片构成,实现复杂、成本较高。本文首次提出了基于大规模逻辑门阵列FPGA(Field Programmable Gat
信息时代如何短时间内获取最有用信息以适应社会的生存和竞争的问题,越来越被人们重视。信息摘要作为该问题的主要解决手段受到广泛关注。由于自然语言文本是信息记录和传播
随着微电子、无线通讯等技术的发展,越来越多的智能设备被发明并被广泛应用于诸如物流运输、环境监测、智能家居和健康医疗等领域。这些数量众多、功能各异的智能设备是泛在
空间语法是一种研究空间组织结构与人类社会活动之间的相互关系的理论方法和分析工具。然而,其传统的轴线模型在对道路表示方面存在着局限性。因此,在此基础上得到的关于道路网
目前,随着互联网和计算机技术的发展,基于网络的实时在线监测系统成为企业对监测系统追求的新目标。国内的状态监测研究与应用仍存在不足之处,主要表现在传感器配置不完善,监
随着网络信息技术的快速发展,如果大数据中有许多遗留下来的历史数据,那么用户从数据仓库中提取信息时可能会过时或不准确,时效性差的数据可能会对人们的日常生活和企业决策
近年来,随着Internet和图像处理技术的快速发展,网络视频监控技术得到了广泛的应用。在网络视频监控系统中,监控的范围不再局限于某一个地点,而是任何有网络的地方。和以前的
在信息社会里,手机已成为人们日常生产生活中必不可少的通讯工具。随着技术的发展,手机的性能比过去有了巨大的提高,几乎可以与九十年代中期的PC机相媲美。可以说当今的手机已经
随着互联网的快速发展,信息超载问题变得愈发突出,用户无法快速从大量的网络信息资源中获取对自己有用的信息,导致信息的使用效率降低。推荐系统作为一种信息过滤的重要手段,
网络控制系统是通过网络实现控制机构之间相互通信的全分布式实时反馈闭环控制系统,呈现出传感器、控制器和执行器空间分离的物理特征。二十一世纪初,在全球富有盛名的19位学