论文部分内容阅读
支持向量机(Support Vector Machines,简称SVM)是V.Vapnik等在20世纪90年代提出的基于统计学习理论(Statistical Learning Theory,SLT)的一种新型机器学习方法。由于其完备的理论基础和优异的性能,该技术已成为机器学习界的研究热点,并在很多领域都得到了成功的应用,如模式识别、数据挖掘、生物信息学等。相对于理论的完善性来说,SVM的算法研究明显滞后,尚有许多问题急需发展和完善。如海量样本下求解过程的冗余问题,训练算法速度慢,对强噪声的敏感问题,多类别分类问题等。这些问题大大制约了SVM在各个领域的进一步应用。特别是对于海量样本的处理,支持向量机在训练速度和训练精度上还有待提高。因此本课题着重研究海量样本下的SVM的训练算法,主要从大规模样本集的约简方法和训练SVM的分段贪婪算法两方面着手,解决海量样本下SVM训练速度和精度不能兼顾的问题。
本文首先对SVM的基本理论进行了介绍,然后对大规模数据集上SVM的训练算法作了系统的研究,并详细研究了流行的SMO算法,接着研究了SVM的分段贪婪算法和处理SVM大规模训练样本集问题的约简算法。在此基础上给出了一种新的SVM分段贪婪算法-YGS-SVMs。本文主要工作包括:
(1)系统论述了支持向量机的理论基础及其主要研究内容。
(2)对大规模数据集上SVM的训练算法作了系统的研究,并对其中流行的SMO算法作了深入探讨。
(3)深入研究SVM的分段贪婪算法和SVM大规模训练样本集问题的约简算法。在其基础上提出了一种适用于大规模训练样本集的快速训练算法--基于大规模训练集快速约简的SVM分段贪婪算法。