论文部分内容阅读
Boosting算法是一种利用组合分类器思想提高算法学习性能的一种算法。近年来Boosting算法的研究成为机器学习领域的热点,并产生了Adaboost等Boosting系列算法。Boosting算法性能比较好,是一种比较好的提升算法,近年来Boosting系列算法被广泛的应用于很多领域。半监督学习是当前机器学习领域的一个比较热门的方向,半监督学习能够充分利用训练样本中的无标签样本,能够结合少量的有标签样本和大量的无标签样本来训练分类器,同时由于半监督学习只需要少量的有标签样本,因此半监督学习算法能够节省获取样本标签的成本。半监督学习对于减少标签代价提高学习器的性能具有重大意义。当前机器学习领域Boosting算法和半监督学习算法都是提高分类性能的算法。近年来很多专家学者在这两方面的研究都取得了良好的进展。但是将Boosting算法和半监督学习结合起来的相关研究还比较少。在本课题中,我们将研究将Boosting思想和半监督学习结合起来的算法。在本课题中我们研究了基于WEKA的数据挖掘开发,我们将我们的算法在WEKA平台上实现。我们是在算法MCSSB的基础上对算法进行改进的。MCSSB算法结合了半监督学习和Boosting思想,它是用来解决多分类问题的,并在很多数据集上取得了较好的效果。但是MCSSB算法对于样本训练集有标记样本比较少的情况下实验效果并不理想。在本课题中,我们对MCSSB算法进行改进,在MCSSB的基础上实现了我们的算法IMSB算法。我们在算法的迭代过程中加入了数据预处理阶段,对样本训练集中的无标签样本的标签进行预测,预测完后随机抽取一部分样本加入到初始分类器的训练集中。实验表明,我们的算法能够在样本训练集中有标记样本比较少的情况下取得较好的效果。我们的算法IMSB在一定程度上改进了MCSSB算法的性能。为了获得具有较高置信度的无标签样本的伪标签,我们采用目标函数优化的思想。我们建立一个类似于MCSSB算法中的目标函数,通过优化这个目标函,我们找到具有最高置信度的无标签样本的伪标签。同时在目标函数优化过程中找到最佳的基分类器的权重。通过优化目标函数得到每一个基本分类器的训练集和相应的基分类器的权重,并最终将所生成的基分类器加权起来形成一个组合分类器。在改进MCSSB算法的过程,我们在样本数据的预处理阶段加入一个有监督学习算法对无标签样本的标签进行简单预测,并从这些样本中随机抽取一部分作为下一次迭代过程中的训练集。我们在这里引入的有监督学习算法是直接从WEKA中导入的,比如KNN算法和Na veBaiyes算法等等。然后再将我们实现的IMSB算法部署到WEKA框架中。实验证明我们的算法在有标签样本比较少的情况下同样能够取得比较好的效果。对于我们提出的基于Boosting思想的半监督学习算法IMSB,我们采用基于weka平台的数据挖掘实验进行实验验证,我们将算法用java语言实现并整合到weka平台中。同时我们利用UCI开发数据库中的数据集对我们的算法进行测试。