论文部分内容阅读
随着Internet的飞速发展,网上的信息资源空前的丰富。人们迫切需要拥有能够从中快速、有效地发现资源和知识的工具,提高在WEB上检索信息、利用信息的效率。将传统的数据挖掘与WEB结合进行WEB挖掘,已成为数据挖掘的一个重要和繁荣的子领域。 支持向量机是由Vapnik及其领导的AT&T实验室研究小组提出的一种新的非常有发展前途的机器学习算法。因为SVM具有较强的理论依据和较好的泛化性能,使得它成为继神经网络研究之后新的研究热点,并将推动机器学习理论和技术有重大的发展。 本文首先对WEB挖掘的有关理论进行了论述,详细描述了WEB文本挖掘系统的设计,包括WEB文本挖掘系统的系统结构、模块功能等。接着对统计学习理论进行了介绍,深入探讨了建立在该理论基础上的SVM算法。接着结合支持向量机分类器的特点提出了递进直推式支持向量机学习算法PTSVM,给出了具体实现步骤和算法有效性的证明。最后给出了算法的实验结果并作了详细的分析。