论文部分内容阅读
支持向量机是Vapnik等在统计学习理论基础上发展起来的针对小样本的新型机器学习方法。该方法由于具有较强的泛化能力、方便对高维数据操作而得到了日益广泛的研究和应用。传统的基于监督学习的分类方法,虽然能够有效地解决各种实际问题,但是需要手工对大量样本进行标记以获取足够的训练样本,代价高,效率低。因此,根据实际需要研究人员又提出了基于半监督学习的分类方法。这类方法能够自动(或半自动)地对有标签样本和无标签样本的混合样本集进行数据分类,在提高效率的同时扩大了算法的适用范围。然而,半监督支持向量机学习是机器学习领域中相对比较新的理论,它在很多方面尚不成熟、不完善,需要进一步地研究和改进。本文主要从半监督支持向量机两分类学习算法、基准学习算法以及多分类学习算法三方面对半监督支持向量机学习算法展开研究,充分发挥半监督支持向量机的优势和潜力。首先,针对半监督支持向量机学习算法训练时间代价大的问题,提出最小二乘支持向量机半监督学习算法。在迭代过程中以最小二乘支持向量机为学习模型,充分利用和发挥最小二乘支持向量机学习算法训练速度快、效率高等优点提高半监督支持向量机算法的训练速度。然后,采用区域标注法对无标签样本进行迭代的标注,提高无标签样本的标注效率,在迭代过程中将有标签样本集和半标记样本集一同进行训练。仿真实验结果表明,最小二乘支持向量机半监督学习算法可以有效的降低训练时间。其次,针对由局部最优化引起的半监督支持向量机学习算法在同一数据集上参数敏感、最优解差异大,以及基于全局最优化技术的基准学习算法时间复杂度高的问题,提出一种改进的分枝定界半监督支持向量机学习算法。该算法重新对结点的下界进行定义,将伪对偶函数的值作为结点的下界,避免了计算量较大的0-1二次规划,降低了各结点计算下界的时间复杂度;同时,依据无标签样本的样本可信度确定分枝结点,避免了多次支持向量机训练,提高了算法的训练速度。仿真实验分析表明该算法同其它半监督支持向量机学习算法相比具有精度高、参数不敏感的优点,并且具有较快的训练速度。本文利用多主机协同训练实现算法的并行化,提出一种分枝定界半监督支持向量机并行学习算法,仿真实验表明该算法具有较好的加速比,在训练速度上有明显的提升。最后,针对半监督学习中有标签样本数据较少,多分类问题实施困难,多分类精度低的问题,提出一种半监督支持向量数据域描述多分类学习算法。算法通过定义非目标样本的隶属度得到非目标样本的接受标签与拒绝标签,在此基础上采用半监督支持向量数据域描述学习算法构造多个超球体,将一个k分类问题转化为k个单分类问题,实现多分类。仿真实验结果表明该算法可以在有标签样本数较少的情况下,有效的提高多分类学习算法的分类精度。