论文部分内容阅读
随着信息化技术的高速发展,人们获取数据的能力大大增强,社会各行各业产生的大量数据信息都可以通过数据采集系统和计算机进行收集和保存。特别是近些年来,随着科技的日益进步,数据采集和存储技术的飞跃发展,数据的获取越来越容易,但是通常容易得到的是大量未标记的样本数据,而有标记的样本数据仍然比较困难或成本太大,因为对大量未标记的样本进行标记既费时又费力。在这种现实环境下,传统的监督学习模型不再实用,如何利用少量的标记样本以及大量的非标记样本进行学习则越来越引起研究人员的关注,为了利用现实世界中的大量非标记样本,关键是要提出新的能够充分利用非标记样本或少量人工标注样本来进行学习的模型。目前主流的半监督学习和主动学习策略提供了这样的模型,但是这些学习模型存在的问题还比较多,如:分类正确率不高,计算量大,训练时间太长等。因此,提高模型利用非标记样本的学习效能仍是该领域的研究热点和难点。为此,本文结合集成学习,对改进主动学习和半监督学习模型的进行了研究,主要工作如下:(1)对近年来国际上关于非标记样本选择方法及研究成果进行了总结,分析了主动学习策略和半监督学习策略存在的优缺点。(2)提出一种基于分歧度评价的融合主动学习和集成学习的高效能学习方法,该方法把训练分成两个阶段——训练前期和训练后期,基于样本分歧度和不同的训练阶段,采取不同的非标记样本选取方式,减少前期误判样本对学习精度的影响。为评价方法性能,在人工流数据和HEp-2细胞图像数据上进行了实验,实验结果表明:该方法相对于目前的Qboost方法,需要的训练样本数少且分类精度更高。(3)提出一种基于半监督学习策略的极限集成学习方法。该方法结合半监督学习所需标记样本数目少和集成学习在精度和鲁棒性方面的优势,采用极限学习机训练分类器,提高了分类器的分类精度,同时大大降低了训练所用的时间。为评价该方法的有效性,用同样的数据集进行测试,实验结果表明,此方法在精度上与(2)中提出的方法相当,但是训练时间大大少于包括(2)中方法在内的目前主流方法。