论文部分内容阅读
支持向量机基于结构风险最小化,是由Vapnik等人在统计学习理论基础上提出来的。由于SVM具有很好的泛化性能和推广能力,能够较好的解决小样本、高维数、非线性以及大规模的实际问题,因而得到了广泛的应用。随着信息时代的到来,信息产生和传播的速度迅速提高,数据库的规模也越来越大,如何从海量数据中挖掘有用的信息,已经引起人们越来越多的关注。本文在对国内外研究现状进行综合分析的基础上,进一步对大规模训练集上的SVM进行了深入研究。首先,分析了支持向量集在加入新样本后支持向量和非支持向量的转化情况。针对淘汰机制效率不高的问题,提出了一种改进的SVM增量学习淘汰算法——二次淘汰算法。该算法经过两次有效的淘汰,对分类无用的样本进行舍弃,使得新的增量训练在淘汰后的有效数据集进行,而无需在复杂难处理的整个训练数据集中进行,从而显著减少了后继训练时间。其次,在最小二乘支持向量机的基础上,根据局部核函数和全局核函数的各自优点,提出了基于一种基于最小二乘支持向量机的组合核函数方法。并且通过仿真试验实现所提算法和原有算法,与原有算法进行比较分析,该方法较原有算法体现出较好的分类性能。最后,在已经存在的二叉树多类分类方法的基础上提出了一种改进的基于二叉树多类分类算法。确定二叉树多类分类的类别分割顺序是二叉树多类分类的重点和难点,该算法通过使用Clara聚类算法确定二叉树多类分类的类别分割顺序。