论文部分内容阅读
机器学习方法研究计算机系统如何通过自动化学习的过程来提升系统性能的算法。对于很多机器学习问题,例如高光谱遥感图像分类、搜索引擎的排序学习、语音识别等,学习模型的泛化性能依赖于有标记样本。但是对于这些问题来说,可获取的有标记样本的数量相对问题的规模来说往往不足,又或者获取样本的代价较高。如何依据有限的有标记样本集来训练足够好的学习模型是机器学习领域一个热点的研究问题。
主动学习(Active Learning)和半监督学习(Semi-supervised Learning)方法是解决这一问题的两种思路。主动学习研究训练样本的选择方法,以尽可能少的标记样本,得到尽可能好的泛化能力。半监督学习研究结合有标记样本和无标记样本的训练和学习模型,建立有标记样本和无标记样本的联系,来得到更好的泛化能力。在实际问题中,研究者发现半监督学习可以作为主动学习的一种补充技术,并试图把这两种方法结合起来使用。我们把融合半监督学习的主动学习方法的分为两类。第一类算法中,半监督学习主要用作为主动学习方法的一种采样技术。本文把这一类方法称为Active Learning withSemi-Supervised Heuristic,ALSSH。第二类方法中,半监督学习方法被当作一种伪标记技术,配合主动学习一起来对未标记样本进行标记。本文把这一类方法称为Collaborative Active and Semi-Supervised Labeling, CASSL。
在CASSL类型的算法中,学习模型并不能保证产生完全正确的标记。在迭代采样的初始阶段,算法可以学习到的模型的准确性是有限的,需要针对特定问题设定伪标记样本的选择规则,以弥补这一不足。如果加入错误的伪标记样本,可能会影响随后的模型学习和训练过程,造成性能的下降,及时的清除错误的伪标记样本非常必要。我们提出基于协同验证的融合半监督学习的主动学习标记方法。我们把这一方法称为Ensured Collaborative Active andSemi-Supervised Labeling,ECASSL。ECASSL以SVM作为基本的学习模型,边缘样本采样(Margin Sampling)作为基本的采样方法。每轮迭代,我们利用新的学习模型验证伪标记样本,根据验证结果,修正或者清除这些伪标记样本。实验结果表明,ECASSL算法有效提高了学习和标注性能。