论文部分内容阅读
随着大数据、物联网等技术的发展,大量的数据以“流”的形式快速产生,从而形成了数据流。数据流中常常隐含着概念漂移。在概念漂移刚刚发生时,仅能获取到少量属于新到概念的样本,使得分类器在少量数据上无法得到充分训练,分类性能往往较差。在概念漂移发生后,如何使得分类性能快速恢复,对于数据流分类至关重要。近年来,迁移学习算法迅速兴起,为数据流分类问题的解决提供了新思路。但是现有的基于迁移学习的数据流分类算法,大多仅能使用单源领域进行辅助学习。在源领域较弱时,很难获得较好的迁移效果。因此,如何合理的使用多个源领域进行迁移学习加速分类器分类准确率的恢复成为了新的挑战! 针对在数据流初期样本较少和数据流中的概念漂移问题,本文开展了以下两个方面的工作: (1)针对增量决策树(VFDT)算法在不满足Hoeffding边界时,分类性能较差的问题,本文改进了VFDT,使其能够适用于在线迁移学习框架(OTL)并处理连续属性-DOTL。为弥补DOTL在源领域较弱时的不足,结合VFDT和局部相似度提出一种多源在线迁移学习算法-DMOTL。实验结果表明,将样本传递到叶节点能提高VFDT的分类准确率,单源在线迁移学习算法DOTL能有效的从单个源领域迁移知识,与VFDT对比显示出较高的准确率,DMOTL更能有效的实施多个源领域知识的迁移,与DOTL对比能显示出更高的准确率。 (2)现有的基于在线迁移学习的概念漂移算法仅能使用单个概念的知识辅助新到概念进行学习,在历史概念与当前概念相似性较差时,分类模型的分类准确率不理想。现有多源在线迁移学习算法在发生概念漂移时,无法及时的调整分类模型以适应新到概念。针对以上问题提出一个能够利用多个历史概念知识的数据流分类算法—CMOL。CMOL算法采取动态分类器权重调节机制,在发生概念漂移时,能够迅速调节每个分类器的权重,根据权重对分类器池进行更新,使得分类器池能尽可能包含更多的概念,在利用分类器池中的分类器进行迁移学习时,分类模型能较快地适应新到概念。实验表明,CMOL相较于CDOL能够在概念漂移发生时更快的适应新到概念,从而显示出更高的准确率。