论文部分内容阅读
支持向量机(Support Vector Machine,SVM)是在统计学习理论基础上发展起来的一种性能优良的机器学习方法,它越来越多地被应用到数据挖掘,模式识别,信号处理等领域中,并取得巨大成功,因此研究支持向量机的性能具有十分重要的意义。影响支持向量机性能的因素有很多,如核函数的构造,噪声野点的存在,以及数据集的类不平衡性等,这些是当前支持向量机研究中的热点问题。本文针对支持向量机中核函数的构造和模糊支持向量机中隶属度函数的修正,以及支持向量机在不平衡数据集上的应用进行了研究。主要创新工作是:(1)提出了一种基于黎曼几何的修正核函数方法。该方法是通过构造一个三角形式的保角变换函数,并且用训练点到分划超平面的距离来修正核函数(Trigonometric KernelScaling,TKS)。TKS方法提供了一种新的保角变换函数形式,从几何的角度丰富了核函数的构造,实验表明,该方法能够有效地提高SVM的分类精度。(2)提出了一种基于距离的隶属度函数的修正方法。该方法是通过在模糊支持向量机中根据不同样本在不同区域内对分类超平面的重要程度,来对基于距离的隶属度函数引入不同的系数。实验表明,修正后的基于距离的隶属度函数能够有效地区分有效样本和噪声野点,从而提高SVM的分类性能。(3)提出了欠抽样和代价敏感支持向量机(Cost Sensitive Support Vector Machine,CS-SVM)相结合的不平衡数据分类算法。该方法首先通过一种新的欠抽样方法来对不平衡数据集进行数据预处理,为了获得更好的分类效果,然后再用代价敏感支持向量机对预处理后的数据集进行训练。实验表明,该算法能够有效改善SVM在不平衡数据集上的分类性能。