论文部分内容阅读
随着互联网的兴起,大规模数据流(特别是文本数据流)在实际应用中不断涌现。文本流的高维性、大规模性和概念漂移性等特点使传统静态分类方法很难有效的处理文本流分类问题,因而近年来,面向文本流的分类问题引起了学者的广泛关注。本文针对高维文本流的特点,提出了四种基于集成学习的文本流分类算法,以解决文本流面临的分类问题。归纳起来,文本流具有以下五个特点:第一,文本流具有概念漂移的特点。第二,文本流具有大规模性和高维性的特点。第三,由于样本的人工标注信息难以及时获取,文本流中充斥着大量无类标样本。第四,文本流往往伴随着类别不平衡的特点。第五,在实际应用中,样本可能属于多个类别(即一个类别子集)。由于类别子集的可能组合极多,导致了分类的复杂性。针对文本流以上特点所带来的复杂的分类问题,本文提出了四种文本流分类算法,主要研究工作如下:首先,针对文本流概念漂移和海量高维性的特点,提出了一种基于集成学习的动态聚类森林分类算法(DCF)。该算法有两个关键策略,即自适应选择策略和投票策略。自适应选择策略通过定义精度权重来评估子分类器对当前数据块的性能,从而动态地选择最优子树。为了在兼顾历史数据的基础上充分挖掘最新数据的信息,DCF算法的投票策略结合了精度权重和置信权重。本文从理论上优化了DCF算法的参数选择并分析了DCF算法的性能。在八个模拟文本流和真实文本流上的实验结果表明:DCF算法具有较好的平均精度和点精度性能。其次,针对文本流的部分标注问题,设计了一种半监督聚类森林分类算法(CCEM-PL)。CCEM-PL算法提出了一种新的半监督聚类树模型作为子分类器。半监督聚类树通过生成实节点和虚节点充分挖掘了无类标样本的信息,不仅使之辅助划分类别分界面,还反映了最新概念的分布情况。CCEM-PL算法根据半监督聚类树的结构分布定义实精度权重和相似度权重,并依据这两类权重对半监督聚类树进行投票。在四个文本流上的实验结果表明CCEM-PL算法具有良好的分类性能。再次,针对文本流动态不平衡性问题,提出了一种不平衡文本流的聚类森林分类算法(CFIM)。为了着重分析少数类概念的漂移情况,CFIM算法设计了动态重抽样策略。该策略通过自适应的收集符合当前概念的少数类样本和错分样本,不但能平衡不同类别的样本数,同时还能加强对错分样本的训练,从而达到提高分类器性能的目的。通过对五个不平衡的文本流进行实验,结果表明,CFIM算法与传统的分类算法相比,具有良好的分类性能。最后,针对多类标文本流的分类问题,本文提出了一种多类标聚类森林分类算法(MLDE)。该算法以多类标聚类树为子分类器,在自适应的选择多类标聚类树后,通过集成策略得到基于子集精度权重和子集置信权重的最终投票结果。通过对四个多类标文本流进行实验,结果表明,多类标聚类森林算法的分类性能明显优于其他四种经典的多类标分类算法。