SVM在Web文本挖掘中的应用与研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:lrg1169
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web已经成为获取信息的最重要手段之一。海量的网页在为人们提供包罗万象、无比丰富的信息资源同时,也向人们提出了如何快速地从信息海洋中获取所需信息的挑战。Web文本挖掘技术是解决上述问题的一种方法。Web文本挖掘借鉴数据挖掘的基本思想和理论方法,从大量非结构化、异构的Web文档的集合中发现有效的、新颖的、潜住可用的及最终可理解的知识。但是,现有的Web文本挖掘技术应用效果不够理想,并且不能适应于Web上文档高速膨胀的需要。因此,开发新的Web文本挖掘技术便成为研究热点。针对以上情况,本文主要做了以下方面的工作。 首先,本文介绍了Web数据挖掘的基本概念、分类和方法,以及Web文本挖掘的具体过程和相关理论。重点介绍了Web文本挖掘中的特征表示与特征提取技术,并提出了一种改进的类别区分词的特征选择方法。该方法能够在大大缩减特征空间的同时,选择出那些最具有类别指示意义因而也最利于分类的特征。 其次,本文认真研究了统计学习理论的主要内容和支持向量机算法的基本原理。并且就支持向量机的训练算法、分类算法、多类算法、核函数及选择等热点问题分别加以讨论。阐述了支持向量机研究和应用现状,以及所面临的问题。最后指出刘支持向量机进一步研究和应用需要解决的一些重要问题。 最后,本文将支持向量机与增量学习相结合应用到Web文本挖掘中,提出一种改进的支持向量机增量学习算法。该算法舍弃对最终结论无用的样本,使得学习对象的知识得到了积累。本算法在保证分类准确度的同时,在增量学习问题上比传统的支持向量机有效。
其他文献
面向服务的体系结构(service-oriented architecture, SOA)是一个功能组件模型,基于此模型,可以通过服务之间定义良好的接口和契约组合联系不同功能组件或软件。SOA具有松耦
多学科优化设计问题一般都涉及到大型复杂的系统,由于大量的设计变量、多种约束条件、多个优化目标和复杂设计空间的存在,这使得在构建多学科优化模型求解优化结果时非常困难
本文首先介绍了系统设计方法学的发展历程和当前电子自动化设计的发展趋势。介绍了复旦大学CAT实验室自行研发的基于平台设计的嵌入式系统开发环境(EmbeddedSystemIntegrated
近年来,随着通讯技术、网络技术和半导体技术的飞速发展以及嵌入式技术的进步,嵌入式系统对人类生活产生了巨大影响,并将继续改变人们未来的生活方式。但是孤立于Internet的
网格主要目的是实现广义资源的充分共享和协同工作。基于网格的问题求解就是网格计算。Globus是网格计算技术的典型代表和事实标准。它研究网格计算中的关键技术,帮助规划和
传感器网络是一种新的信息获取和处理技术,是计算机科学技术的一个新的研究领域。由于其在许多应用领域中具有重要的实用价值,已成为学术界的研究热点。论文首先对传感器网络
Web应用的快速发展给Web开发和测试提出了更高的要求.建立模型是测试的第一步.本文在现有的Web应用测试模型的基础上进行改进,给出了一个较为完整的Web应用测试模型,设计并部
虚拟化的自身安全问题与虚拟化技术的快速发展如影随形。虚拟机上磁盘数据的安全关乎整个虚拟系统能否正常运行。在实践和理论上,虚拟机和物理机器有着无法忽视的差别,一些传统
信息学的发展,给生命科学带来新的机遇和挑战,产生了多学科交叉的生物信息学。从功能上,而非从细胞或有机体各个部分的特性上进行细胞的模拟和分析,是后基因组时代的研究热点。本
论文首先简单介绍了VPN的概念和应用,并简单分析了国内外产品和目前IPSec VPN技术发展情况和技术难点,然后深入分析了IKE协议,包括IKE协议的组成、IKE协商的过程和IKE消息的