论文部分内容阅读
传统的机器学习方法是静态的学习模式,即基于大量已有样本进行训练,然后利用训练好的模型来完成特定的预测、分类或回归等学习目标。然而,现实生活中数据不断到来,导致旧模型需要不断更新;而且,人类的学习也是逐渐累积、不断成长的过程,随着新知识的不断涌现,学习过程也需要同步更新。这样,静态的学习模式不能满足持续学习的需要,如何在历史学习成果的基础上,采用增量学习的模式,更新、改进旧知识,而不必完全推倒所有历史成果重新学习,是人工智能及机器学习理论中一个非常重要的问题。支持向量机(Support Vector Machine,SVM)是统计学习理论中非常重要的一种机器学习方法,它基于统计学习理论中结构风险最小化的思想,通过解凸二次规划问题,来得到最优的分类超平面。本文基于学习样本以数据流形式出现,从极少样本开始学习,以及学习过程需要不断调整与改进等实际情况,以在线式增量学习的角度,对SVM增量学习(ISVM)的相关理论、SVM增量学习的在线式过程以及如何提高SVM增量学习的效率与性能等进行了重点的研究。本文的主要工作和成果如下:1.传统的SVM增量学习在每当遇到违背Karush-Kuhn-Tucker(KKT)条件的新样本时,就会从新样本和历史样本中重新选择候选支持向量,并立即更新当前模型。在线学习的情况下,直接使用传统方法可能造成模型过于频繁更新、总体运行效率低下。针对上述问题,提出了一种基于错分样本触发增量过程的SVM在线增量学习方法。实验结果表明,提出的方法能够在得到良好的分类精度的同时,学习效率也明显提升,特别是对于大规模的数据集,其速度远快于传统方法。2.在从非常少的样本开始的学习过程中,由于初始模型训练不充分,后续在线过程中模型会频繁更新;并且由于没有先验知识,不清楚样本的分布情况下,按照传统增量学习的思路选择所有违背KKT条件的新样本用于在线增量过程,反而会造成整体分类精度的降低。针对上述问题,提出了基于重要性和信息性的准则,来选择新样本作为新的支持向量来更新分类模型;同时采用局部-全局的正则化方法,加快了模型收敛的速度,提高在线学习的效率,也保证了分类精度的提高。实验结果表明,提出的方法在分类精度和学习效率上均优于最近的几种在线学习方法。3.提出了一种新的支持向量机在线式增量学习算法,结合了经典ISVM算法的严格增量过程和Passive-Aggressive在线学习的思想,有效地解决了经典ISVM算法在在线过程中如何更好的选择新的支持向量的问题、Passive-Aggressive算法在模型每步更新很小造成整体更新过于频繁的问题以及两种方法在大规模数据学习时均需要花费大量时间,即整体速度比较慢的问题。提出的方法:与Passive-Aggressive算法相比,可获得更少的更新次数、更好的运行效率和更高的分类精度;与经典ISVM算法相比,对模型增量更新的次数有显著的减少,速度与效率有极大的提升。4.在超大规模数据分类的情况下,SVM增量学习面临两大挑战:由于SVM本身是监督式学习,样本大量标注非常耗时耗力,效率低下;如果同时数据维数也很高,传统的SVM增量学习核运算量非常巨大,特别是,获得好的分类模型往往需要大量的训练样本,又快又准确的获得分类器模型非常困难。针对超大规模数据学习的上述问题,提出了一种新的方法,结合了K-means聚类、异常点检测和多核SVM多种学习方法,实现在少量的标注工作时,尽快开始学习,并为后续的SVM增量学习过程提供良好的初始模型,从而加快整个学习的进程,提高学习的效率。最后,对全文进行了总结,并对进一步的研究提出了一些展望。