论文部分内容阅读
孪生支持向量机是支持向量机的一种改进算法。与支持向量机相比,孪生支持向量机不但保持了较高的分类准确率而且具有更快的训练速度。孪生支持向量机最初是为解决二分类问题而提出的,然而实际应用中所面临的大多是多分类问题。鉴于孪生支持向量机的优秀性能和多分类问题的广泛性,多分类孪生支持向量机的研究越来越受到人们的重视。多生支持向量机是最近被提出的一种新型多分类孪生支持向量机。该算法因在处理类别较多的多分类问题时具有较快的训练速度而受到关注。但是,与一对一多分类孪生支持向量机等算法相比,该算法分类准确率有待提高。此外,多生支持向量机在训练过程中需要求解二次规划问题,训练速度也有提升的空间。机器学习算法所采用的损失函数直接关系到算法的性能和效率。本文从多生支持向量机的损失项入手,结合粒度计算理论,改进多生支持向量机,提升算法的性能。本文的主要研究内容如下:研究了基于加权线性损失函数的多生支持向量机。为了进一步提升多生支持向量机的训练速度,本文使用加权线性损失函数近似替代Hinge损失函数,提出了加权线性损失多生支持向量机。加权线性损失多生支持向量机利用加权线性损失函数重新构造多生支持向量机模型的目标函数,使得算法以加权线性损失项而非Hinge损失项评估经验风险。通过推导,加权线性损失多生支持向量机的优化问题可以转化为线性方程组。因此,加权线性损失多生支持向量机的训练过程仅需求解线性方程组,而原始多生支持向量机需要求解二次规划,这使得加权线性损失多生支持向量机的算法速度明显快于原始多生支持向量机。UCI数据集上的实验结果表明所提算法在保持分类准确率的基础上提高了多生支持向量机的训练速度。研究了Ramp损失多生支持向量机。原始的多生支持向量机中采用的Hinge损失函数没有上界,因此对噪声点依然敏感。为了提升多生支持向量机的鲁棒性,本文将具有上下界的Ramp损失函数与多生支持向量机模型结合得到Ramp损失多生支持向量机。Ramp损失函数的使用使得Ramp损失多生支持向量机的数学模型成为非凸的二次规划问题,如果使用常规的优化工具进行求解,得到的解往往精度不高。为了保证模型求解的准确性,本文通过凹凸过程算法求解Ramp多生支持向量机的优化问题。针对所提出的Ramp损失多生支持向量机,通过实验测试了其分类性能,并将其与多生支持向量机、多生最小二乘支持向量机以及加权线性损失多生支持向量机作了详细对比。研究了粒度多生支持向量机。为了进一步提升所研究算法的分类准确率,本文参考粒度支持向量机的原理,将粒度思想引入多生支持向量机、多生最小二乘支持向量机、加权线性损失多生支持向量机和Ramp损失多生支持向量机提出了四种粒度多生支持向量机。粒度多生支持向量机首先通过粒度划分得到一系列信息粒,然后在每个包含多类样本的信息粒上建立仅涉及该信息粒上训练数据的子分类器,最后结合所有粒上子分类器获得最终的决策结果。实验表明,相对于原算法,多生粒度支持向量机、最小二乘粒度多生向量机、加权线性损失粒度多生支持向量机和Ramp损失粒度多生支持向量机的分类性能得到了提升。