论文部分内容阅读
随着现代各种技术的迅速发展,现实生活中越来越多的应用与多标记数据密切相关,因此,多标记数据的分类方法及其应用成为当前数据挖掘和机器学习领域的热点问题。其中基于集成学习的多标记数据分类方法是非常值得研究和探讨的一个方向。集成学习能提高分类器的性能,Adaboost算法是典型的集成学习算法之一。但是,之前研究Adaboost算法是基于不稳定且变化较大的学习算法,比如:决策树,神经网络等。本文扩展研究了Adaboost算法,使其在稳定且变化不大的算法的基础上也能有很好的性能。在本文中,我们研究了基于懒惰算法——改进的K近邻学习算法MLKNN的Adaboost算法,并提出了Adaboost.ML算法。该算法的基本思想是:用MLKNN做AdaBoost算法的基分类器,并对AdaBoost算法做一部分修改,使其适合MLKNN算法,提高算法的性能。实验结果表明,Adaboost.ML算法具有很好的分类性能。另一方面,多标记数据分类算法的研究越来越多,多标记数据分类算法主要是解决样本同时属于多个类别的分类问题,它适用于各种各样的分类任务,但是,传统的多标记数据分类学习中,分类器大多都是针对大量的具有完整标记的训练样本,然而,在现实生活的许多应用中,只能够获得一些标记不完整的训练样本。为了更好的利用这些不完整的训练样本即弱标记训练样本,本文提出了一种针对弱标记的多标记数据分类的集成学习算法RPCME算法。该算法通过采用基于相似形成对约束投影的方法来处理数据集,更好的利用了弱标记样本的特征,从而提高了分类器的分类性能。大量实验表明,HRPCME算法在弱标记样本的情况下,具有很好的分类性能。本文主要研究了基于稳定分类器的Adaboost算法和针对弱标记样本的多标记集成学习的问题,并提出了Adaboost.ML算法和RPCME算法,这为将来研究基于集成学习的多标记数据分类方法提供了良好的思路借鉴。