论文部分内容阅读
随着计算机存储技术和人工智能领域的发展,不均衡的数据集的研究越来越受到研究人员的关注。近年来,机器学习和数据挖掘领域常见的分类方法和采样技术针对传统的类别平衡的数据集有较好的分类效果,在不均衡数据集的条件下,少数类常被误分成多数类。主动学习和半监督学习都是利用少量标记样本和大量未标记样本的学习技术,利用大量未标记样本学习不仅能减小对未标记样本的标记代价,而且可以增强分类器的泛化能力。 本文尝试着运用主动学习思想和半监督学习方法相结合,提出了一种主动半监督协同分类算法(ActiveSemi-supervisedLearningCollaborationClassificationAlgorithm,简称ASCC算法)。该算法通过主动学习方法增加已标记样本的数量,满足了Tri-training算法训练所需足够的标记样本数量,从而减少协同训练学习所需要的次数和时间。 基于以上提出的方法,本文的主要工作如下: (1)在已知少量的标记样本和大量的未标记样本的数据集的情况下,提出了基于样本KNN分布概率模型的主动学习算法。这种方法利用KNN的思想构造已标记和待标记样本之间的联系,通过这种联系建立概率模型,然后借助于基尼指数的专家评价标准,给出相对可能被标记的待标记样本。 (2)针对传统的Tri-training算法在处理不均衡数据集分类的不足,我们在训练样本的抽样、分类器的选择以及在最后的分类器集成方面对Tri-training算法做出了相应改进。通过UCI上不均衡数据验证了改进算法的有效性。 (3)针对少量已标记和大量未标记且是不均衡数据集的分类的问题,结合(1)和(2)中的方法,提出了基于改进的Tri-training的主动半监督协同训练学习算法。UCI上的不均衡数据集的实验结果表明,所提出的ASCC算法与以往算法相比有一定的性能提高,且表现出了一定的稳定性。