论文部分内容阅读
支持向量机(Support Vector Machine,简称SW)是一种解决模式分类和线性回归问题的机器学习方法。近年来,因其坚实的理论基础和良好的泛化能力而被广泛用于模式识别、医疗诊断和预后、入侵检测等诸多领域。当前支持向量机方法研究中存在着以下问题:1.它是针对小样本的学习方法,当数据集样本量大的时候,支持向量机的训练时间呈现指数级数的增长,使其不能适应海量数据的训练要求;2.支持向量机由于在学习过程中平等对待所有参与训练的数据样本,使其不适合解决不平衡数据上的分类与回归问题。针对以上问题,本文在总结归纳前人研究成果的基础上,应用费歇尔判别率准则和样本加权的思想,深入地研究了基于冗余数据约减的支持向量机和加权支持向量机的学习方法。 论文的主要工作如下: 1.详述了支持向量机方法的理论基础,包括统计学习理论的VC维理论和结构风险最小原理。讨论了支持向量机方法的基本原理和当前支持向量机方法在处理不平衡大数据样本集中存在的问题和国内外的研究成果。 2.提出了一种基于冗余数据约减的海量数据上支持向量机学习方法。该方法应用支持向量存在于最优分类面附近的原理,将数据分为内层和外层数据。即起到分类作用的支持向量分布于数据的外层,而内部的数据样本看做是冗余数据。通过应用费歇尔判别率准则确定外层数据和内部数据的分界面,并将内部冗余数据全部去除,仅保留外层数据参与支持向量机的训练。多组实验结果表明,本方法可在保证良好分类性能的基础上,使其支持向量机训练速度要远远快于传统SVM学习方法的训练速度。 3.提出了一种基于冗余数据约减的不平衡数据的加权支持向量机学习方法,该方法在应用基于冗余数据约减思想的基础上,根据约减后的数据样本对模糊分类面的贡献程度来为样本加权,实现了大样本不平衡数据的加权支持向量机的快速训练。在模拟和真实的平衡、不平衡数据集上,使用加权支持向量机取得的分类实验结果表明,本文所提方法在大样本数据集上的训练速度和分类效果上都优于传统支持向量机学习方法和RW-SVM2(Reduced,weighted SVMtraining)算法,同时在训练之后得到的支持向量个数也远远小于其它对比算法,使得其在对未知数据进行预测分类时的速度得到提升。