论文部分内容阅读
支持向量机是建立在统计学习理论的VC维理论和结构风险最小化原则的基础上的一种机器学习方法。它根据有限的数据信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的泛化能力。支持向量机具有坚实的数学理论基础,能够较好地解决有限样本、非线性、过学习、高维数和局部极小点等学习问题。由于其优越的性能,已被广泛应用于许多领域中,并已成为机器学习领域的研究热点之一。本文对支持向量机理论进行了深入地研究,指出其在寻找最优分类超平面的过程中忽略了一种重要的先验知识,即样本的类内结构。为此,本文研究了类内结构支持向量机算法,即基于样本的类内离散度提出的改进支持向量机算法,随后分别对目前存在的噪声问题、孤立点检测问题、不平衡数据学习问题做了进一步的研究。主要工作如下:(1)指出现有的支持向量机算法模型中存在的问题,即忽略了样本的类内结构。分析了支持向量机与Fisher判别分析算法的相似点与不同点,提出基于类内离散度的支持向量机(WCS-SVM)算法。该算法的基本思想就是寻找一个最优分类超平面,不仅将两类样本尽量正确分开,在保持较高分类精度的同时最大化分类间隔,而且使得样本的类内离散度尽可能的小。数值实验证明了此算法具有良好的分类性能。最后,将无监督聚类技术同WCS-SVM算法结合起来用于网络入侵检测中,进一步验证了算法的有效性。(2)在模糊支持向量机中,为了更好地刻画训练样本对分类超平面的贡献,提出一种新的基于样本紧密度的模糊隶属度函数设计方法。该隶属度函数不仅考虑了样本与所在类中心之间距离,同时还考虑了类内样本之间的紧密度。重点在于我们引入两个参数来分别控制正负两类样本的紧密度,这两个参数需要预先设定。文中,我们通过支持向量数据描述算法来确定这两个参数。数值实验证明了该隶属函数可以更好地降低噪声或野值点对分类结果的影响。为了更好地处理被噪声污染的数据集分类问题,对于每个训练样本赋予不同的模糊隶属度的同时,考虑了样本的类内结构,提出新的基于样本类内结构的模糊支持向量机(WCS-FSVM)算法。文中详细地给出了算法的推导过程的同时,严格证明了该算法的收敛性。数值实验验证了该改进算法的有效性,降低了噪声的影响,提高了分类精度。(3)孤立点检测是数据挖掘和机器学习的研究热点之一。它的任务就是从已有观测数据中建立正常行为数据的模型进行异常行为的检测。我们充分利用样本信息,对一类支持向量机算法进行了改进,并将其应用于孤立点检测中。实验中,我们采用总正确检测率与Kappa系数k作为性能评价标准,与其它一类标准算法GDD、 NNDD、 PCA、 OC-SVM进行比较。结果证明该改进算法是有效的,优于其他比较算法,在一定程度上提高了检测率。(4)不平衡数据广泛存在于实际应用中,不平衡数据学习也是目前机器学习和数据挖掘领域中的研究热点之一。对于支持向量机来说,正负训练样本不平衡会引起分类超平面向少数类偏移。为了有效抑制分类超平面的偏移,本文提出了基于类内结构的不同误分代价支持向量机算法。该算法不仅对少数类和多数类分别采用不同的误分代价(对少数类赋予更大的惩罚因子),而且同样考虑了样本的类内结构,较好地减少了样本数目不平衡对分类性能所产生的影响。实验中,我们采用G-means作为性能评价标准。实验结果证明了该算法的有效性,既可以提高少数类样本点的分类准确率,也可以提高正负类样本点分类准确率的几何平均值。