论文部分内容阅读
统计学习理论(SLT)是Vapnik等人提出的一种小样本统计理论,主要研究小样本情况下的统计规律及学习方法性质。它为机器学习问题建立了一个较好的理论框架,并且在这框架下发展出了一种新的学习方法--支持向量机(SVM)。支持向量机能较好地解决许多学习方法中的过学习、高维数、局部极小点等实际问题。在实际应用中,它不输于神经网络或决策树等方法。作为小样本学习的最佳理论,统计学习理论和支持向量机受到越来越广泛的重视,已经成为人工智能和机器学习领域的研究热点。然而,由于出现的时间较晚,支持向量机在很多方面还不成熟、不完善,需要进一步地研究和改进。在众多研究中,支持向量数据描述(SVDD)方法凭借其良好的性能得到了广大研究者的重视。本文主要讨论了以下内容:第一章和第二章主要介绍了支持向量机的研究背景、研究现状,阐述了统计学习理论以及二类支持向量机的主要思想和解决方法。第三章引入支持向量数据描述,讨论了多种求解方法,然后通过实验对各种方法进行比较。SVDD的基本思想是对给定的样本集构造一个最小包围球,这个最小包围球尽可能多的包含样本集中的样本。支持向量数据描述可以写成与支持向量分类器(SVC)类似的形式。它把数据映射到高维特征空间中,但并没有增加额外的计算代价。这种映射使得算法能更灵活地处理问题。当样本点的维数较大时,传统的求解支持向量数据描述方法显得很无力。因此,人们把注意力转向近似算法。其中一种近似算法可以利用核集有效的求解出(1 +ε)-近似的支持向量数据描述问题。这种方法把核集当作样本集的一个近似,通过反复的对核集求解最优化问题来得到原始优化问题的解。令人惊讶的是,核集的最终大小与样本维数和样本个数都无关。第四章介绍了核向量机,并提出了新算法。标准SVM在训练的时候需要O ( m3)的时间复杂度和O ( m2)的空间复杂度,m为样本个数。因此当样本数巨大时,标准SVM的训练变得十分困难。核向量机(CVM)展示了SVM的二次优化问题可以转化为硬间隔SVDD的等价形式。实验表明CVM在预测时与SVM的预测精度相当,但CVM的训练速度更快,可以处理大规模数据。在此,本文提出SVM的二次优化问题可以转化为软间隔SVDD的等价形式,并通过仿真实验与已知方法比较,说明了本文提出的这种方法的有效性。第五章介绍了高斯核的性质、它对SVDD性能的影响以及一种高斯核参数优化算法。在众多核函数中,高斯核凭借其特殊的性质,得到了许多研究者的重视。然而,研究表明,SVDD的性能受高斯核参数的影响很大。因此,最优高斯核参数应该使得特征空间中的样本分布趋于超球形。基于仿真数据的实验说明了该方法的有效性。第六章总结文章的主要工作,并对未来进行展望。