支持向量机增量学习研究

来源 :浙江工业大学 | 被引量 : 9次 | 上传用户:sbb20005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的机器学习方法是静态的学习模式,即基于大量已有样本进行训练,然后利用训练好的模型来完成特定的预测、分类或回归等学习目标。然而,现实生活中数据不断到来,导致旧模型需要不断更新;而且,人类的学习也是逐渐累积、不断成长的过程,随着新知识的不断涌现,学习过程也需要同步更新。这样,静态的学习模式不能满足持续学习的需要,如何在历史学习成果的基础上,采用增量学习的模式,更新、改进旧知识,而不必完全推倒所有历史成果重新学习,是人工智能及机器学习理论中一个非常重要的问题。支持向量机(Support Vector Machine,SVM)是统计学习理论中非常重要的一种机器学习方法,它基于统计学习理论中结构风险最小化的思想,通过解凸二次规划问题,来得到最优的分类超平面。本文基于学习样本以数据流形式出现,从极少样本开始学习,以及学习过程需要不断调整与改进等实际情况,以在线式增量学习的角度,对SVM增量学习(ISVM)的相关理论、SVM增量学习的在线式过程以及如何提高SVM增量学习的效率与性能等进行了重点的研究。本文的主要工作和成果如下:1.传统的SVM增量学习在每当遇到违背Karush-Kuhn-Tucker(KKT)条件的新样本时,就会从新样本和历史样本中重新选择候选支持向量,并立即更新当前模型。在线学习的情况下,直接使用传统方法可能造成模型过于频繁更新、总体运行效率低下。针对上述问题,提出了一种基于错分样本触发增量过程的SVM在线增量学习方法。实验结果表明,提出的方法能够在得到良好的分类精度的同时,学习效率也明显提升,特别是对于大规模的数据集,其速度远快于传统方法。2.在从非常少的样本开始的学习过程中,由于初始模型训练不充分,后续在线过程中模型会频繁更新;并且由于没有先验知识,不清楚样本的分布情况下,按照传统增量学习的思路选择所有违背KKT条件的新样本用于在线增量过程,反而会造成整体分类精度的降低。针对上述问题,提出了基于重要性和信息性的准则,来选择新样本作为新的支持向量来更新分类模型;同时采用局部-全局的正则化方法,加快了模型收敛的速度,提高在线学习的效率,也保证了分类精度的提高。实验结果表明,提出的方法在分类精度和学习效率上均优于最近的几种在线学习方法。3.提出了一种新的支持向量机在线式增量学习算法,结合了经典ISVM算法的严格增量过程和Passive-Aggressive在线学习的思想,有效地解决了经典ISVM算法在在线过程中如何更好的选择新的支持向量的问题、Passive-Aggressive算法在模型每步更新很小造成整体更新过于频繁的问题以及两种方法在大规模数据学习时均需要花费大量时间,即整体速度比较慢的问题。提出的方法:与Passive-Aggressive算法相比,可获得更少的更新次数、更好的运行效率和更高的分类精度;与经典ISVM算法相比,对模型增量更新的次数有显著的减少,速度与效率有极大的提升。4.在超大规模数据分类的情况下,SVM增量学习面临两大挑战:由于SVM本身是监督式学习,样本大量标注非常耗时耗力,效率低下;如果同时数据维数也很高,传统的SVM增量学习核运算量非常巨大,特别是,获得好的分类模型往往需要大量的训练样本,又快又准确的获得分类器模型非常困难。针对超大规模数据学习的上述问题,提出了一种新的方法,结合了K-means聚类、异常点检测和多核SVM多种学习方法,实现在少量的标注工作时,尽快开始学习,并为后续的SVM增量学习过程提供良好的初始模型,从而加快整个学习的进程,提高学习的效率。最后,对全文进行了总结,并对进一步的研究提出了一些展望。
其他文献
4月3日,无锡市委组织部召开全市基层党建“三项工程”推进会,无锡公交集团中南分公司扬名营运部党支部荣获无锡市“党支部标准化规范化建设示范点”荣誉称号。近年来,扬名党
传统广电传媒与新兴传媒融合发展,必将演进为超级视听传媒与市场的共生关系更加紧密。近年来,中央、省、地市、县四级电视媒体融合发展的探索实践,昭示了现阶段电视媒体融合
2018年,全省农技部门以'党建+'为引领,充分发挥了党员先锋引领作用,示范推广粮油绿色高效主推技术,大力实施'粮藏于技'战略,为全省粮食生产实现'十五连
"全媒体"是一种整合了各种传播渠道的传播状态,这种传播态势为中国的电影产业带来新的传播渠道和经营逻辑。"全媒体"时代,中国的电影产业开始向大电影产业链的模式推进,并逐
对高校科研经费风险点及其成因进行深入剖析,结合中国各大高校的实际情况,在"放、管、服"原则外部和内部控制环境下,从协同角度提出"内"+"外"的高校科研经费风险防控措施,以
目的:探讨宫颈癌根治术后淋巴囊肿的临床诊断及防治方法。方法:收集2002年1月至2013年1月于大连医科大学第二附属医院住院的宫颈癌根术后淋巴囊肿患者21例,均符合诊断标准,回顾性
目的:探讨更昔洛韦眼用凝胶联合干扰素球结膜下注射在治疗单纯疱疹病毒性角膜炎(HSK)的临床疗效。方法:将76例单纯疱疹病毒性角膜炎患者随机分为治疗组40例和对照组36例,治疗组用
目的:对目前研究较为广泛的miR-15a的靶基因进行预测及相关生物信息学分析,以期为miR-15a靶基因的实验验证提供数据支持,并为深入研究miR-15a的调控机制及生物学功能奠定基础
为解决鹤岗矿区1/3焦煤煤泥水难沉降的问题,选取阴离子型、阳离子型及非离子型聚丙烯酰胺(PAM)为絮凝剂,对该矿1/3焦煤煤泥水进行絮凝沉降实验,研究搅拌时间、pH、絮凝剂种类
从1980年到现在,二十几年间,中国会计职业得到了迅速发展,在维护市场经济秩序方面的作用越来越突出,社会对审计的期望越来越高,使得审计责任和审计风险也越来越大,面对日益增