论文部分内容阅读
双平面支持向量机(Twin Support Vector Machines, TSVM)是一种非平行平面最接近支持向量机算法。它的目标是寻找两个非平行的超平面,一个超平面离一类样本点很近,离另一类样本点有一定的距离。它求解一对相对小规模的二次优化问题,工作速度比支持向量机(Support Vector Machines, SVM)快约四倍,它的性能也常常比SVM好。TSVM在最近几年的发展非常迅速,成功地应用在模式识别、数据分类和函数拟合等领域。SVM的多任务学习,多视角学习和半监督学习已经吸引了大量的研究人员进行研究。本文将TSVM扩展到了多任务学习,多视角监督学习、多视角半监督学习和半监督学习的框架下,并且用PAC贝叶斯理论分析了双平面支持向量机的泛化误差界。在多任务学习框架中,我们首先提出了直接多任务双平面支持向量机(Direct Multitask Twin Support Vector Machines, DMTSVM),这种方法类似于多任务支持向量机思想,任务间分类器共享一个共同的表示,每个任务会有一个偏置。同时为了消除双平面支持向量机对于野值点敏感性的缺陷,我们提出了通过加权类中心到超平面距离的质心双平面支持向量机(Centroid Twin Support Vector Machines, CTSVM),然后将CTSVM按照相同的方式扩展到多任务学习框架下得到了我们的多任务质心双平面支持向量机(Multitask Centroid Twin Support Vector Machines, MCTSVM)。在多视角学习框架中,我们提出了多视角双平面支持向量机(Multi-view Twin Support Vector Machines, MvTSVM)对应于多视角监督学习,以及多视角拉普拉斯双平面支持向量机(Multi-view Laplacian Twin Support Vector Machines, MvLapTSVM)对应于多视角半监督学习。这两种方法都通过多视角约束的思想结合了两个视角,类似于SVM-2K。MvLapTSVM在MvTSVM的基础上,借鉴拉普拉斯双平面支持向量机(Laplacian Twin Support Vector Machines, LapTSVM)额外增加了平方损失和Laplacian规范化项。在半监督学习框架中,我们使用了新规范化项,叫做切空间内蕴流形规范化(Tangent Space Intrinsic Manifold Regularization, TSIMR)。该规范化项不仅能够利用标签数据和未标签数据来捕获流形的局部信息,而且还包括了经典的Laplacian规范化项,我们将它和TSVM结合进行半监督学习,提出了切空间内蕴流形规范化双平面支持向量机(Tangent Space Intrinsic Manifold Regularization Twin Support Vector Machines, TiTSVM)。SVM被广泛应用的一个重要原因在于它有强大的统计学习理论做支撑,而双平面支持向量机的理论分析极少。PAC贝叶斯界和先验PAC贝叶斯界基于分类器分布的先验和后验是实际应用中最新最紧的界。本文最后使用统计学习理论中的PAC贝叶斯理论分析了双平面支持向量机的理论界。为了评价本文提出的方法,我们在多个现实数据集上进行了对比实验。实验的结果验证了本文提出算法的有效性。