论文部分内容阅读
支持向量机(Support Vector Machine, SVM)是基于统计学习理论提出的一种新型有监督模式识别方法.采用结构风险最小化原则,SVM在最大化分类间隔和最小化分类误差之间取得折衷,以控制分类器的泛化能力.SVM较好地解决了小样本、高维数及非线性等实际问题,具有拟合精度高、选择参数少、推广能力强和全局最优等特点.SVM成为机器学习领域新的研究热点,并被广泛应用到模式识别、函数拟合和密度估计等领域.本文针对大规模样本集的SVM训练问题、SVM的集成学习问题、变形SVM问题、支持向量域描述(Support Vector Domain Description,SVDD)的快速训练问题等进行研究,主要研究工作如下:1.研究了大规模样本集的SVM训练算法.SVM在训练大规模样本集时面临着占用内存多、计算代价大的问题,这也成为实际应用的瓶颈问题.基于并行学习中“分而治之”的理念和“支持向量与全体训练样本等价”的结论,提出一种同心超球面支持向量机(Hypersphere Support Vector Machine, HSVM).HSVM以相同层数的两组同心超球面组对正负两类样本进行分割,对分层间隔内的样本采用SVM训练,合并所有分层间隔中支持向量的并集以参与最终的SVM训练.HSVM既保持了SVM的分类精度又降低了SVM的训练时间.2.研究了SVM的集成学习算法.运用集成学习的理念构造了一种空间支持向量域分类器(Space Support Vector Domain Classifier,SSVDC).选取支持向量域分类器(Support Vector Domain Classifier,SVDC)和K近邻(K Nearest Neighbor,KNN)作为子分类器,SSVDC以选择集成的策略对两者的预测结果进行集成.SSVDC首先采用SVDD求得两类样本的最小包围超球,并以超球的描述边界将训练样本划分为互不相交的几个区域;其次计算待测样本到两个最小包围超球球心的距离,根据其与两个最小包围超球半径的大小关系判断待测样本所处区域;最后选择相应的子分类器得到最终的分类结果.由于子分类器均针对样本的某个子集进行训练,SSVDC具有较短的训练时间.由于根据样本的分布选取相应的子分类器,SSVDC具有较高的分类精度且其分类精度受核参数变化的影响不大.数值实验验证了SSVDC的有效性以及对比SVM和SVDC的优越性.3.研究了变形SVM算法.通过改变原始优化问题的函数项、变量或系数得到了一系列变形SVM算法,这在一定程度拓宽了SVM的应用范围.针对变形SVM中的二次损失函数SVM,构造一种光滑对角加权支持向量机(Smooth Diagonal Weighted Support Vector Machine,SDWSVM).在线性空间中,直接运用光滑技术得到光滑模型,也即采取Sigmoid函数的积分函数来逼近正号函数形式的松弛.在非线性空间中,先分别利用Lagrange乘子向量来代替分类超平面的权值向量和原-对偶规划隐含的分类超平面的权值向量表达式对原规划的目标函数进行转换,再利用光滑技术构造光滑模型.对线性空间和非线性空间中得到的光滑模型,均采用Newton法求解,具有较高的效率.4.提出了一种约简支持向量域描述算法(Reduced Support Vector Domain Description,RSVDD).SVDD的训练即为求解一个所含未知数个数等于全体训练样本个数的凸二次规划.为了提高SVDD的训练速度,RSVDD对每个样本定义一种自中心距离比值,定义此值为该样本到中心的距离与所有样本的平均中心距离的比值,并以此值作为判断该样本成为支持向量的可能性度量.RSVDD选取自中心距离比值较大的部分样本参与SVDD训练,从而减少了待解QP的规模.该算法引入参数少,易于实现且保持了目标类精度.5.提出了一种信赖支持向量域描述算法(Confidence Support Vector Domain Description,CSVDD).由于支持向量往往分布在SVDD的描述边界附近,基于这个几何特性,定义了一种信赖抽样方法以提取部分样本参与SVDD训练.依次以每个样本为中心,做一个以某定长为半径的超球.统计落入该超球中的训练样本数目,并将该值作为判断中心样本属于支持向量的信赖度量(Confidence Measure).根据信赖度量的值将训练样本升序排列,CSVDD提取排在前面的部分样本作为边界向量集参与最终的SVDD训练,缩短了SVDD的训练时间并保持了SVDD的目标类精度.