论文部分内容阅读
在社会高速发展、信息急剧增加的大环境中,各个领域的数据呈现爆炸式增长,数据的增量模式使得世界来到了大数据时代。对于如何从海量数据中挖掘有效信息,成为当前社会科学的一个重要关注点。分类技术是机器学习和数据挖掘领域的主要手段之一,主要思想是根据已有的数据以及标签训练分类器来预测未知数据的标签。传统的分类方法用于处理静态数据,所构造的分类模型是固定的,不利于处理动态变化的数据流。数据流具有数量无限,快速到达,及时响应,概念漂移,不平衡等特征。如何应对数据流特征从而进行正确分类,是目前分类问题研究的重点。为了适应数据流随时变化的特点,数据流分类模型也要根据数据的变化做出相应的改变,不断进行调整。数据流中存在概念漂移和不平衡问题,如何有效的检测概念漂移和不平衡,以及处理这两种现象是数据流分类需要处理解决的问题。因此,本文根据不同的数据流处理方法,对数据流分类问题进行了深入的研究,主要内容包括以下两个方面:(1)对数据流进行分块批处理,采用窗口模式,衡量分类模型对前后两个数据块的分类能力。提出了一种基于Kappa系数的概念漂移检测和针对类不平衡的SMOTE采样方法相结合的动态数据流分类算法。该算法在分类过程中计算每个数据块分类结果的Kappa系数,检测数据流前后的概念是否一致,是否发生概念漂移。当数据流中的概念发生了变化,预示着可能出现了数据的不平衡。若不平衡,对当前数据块用SMOTE采样方法平衡数据,系统依据已有的知识,及时将所有不符合要求的分类器淘汰。利用采样后的数据块训练新的分类器加入到分类器集成中。实验结果表明,该算法与同类算法相比分类效果有了明显的提高。(2)对数据流进行在线及时处理,提出了一种基于在线学习的数据流分类方法。该算法对数据进行及时处理,采用OnlineBagging集成分类器,利用Possion分布,改变对每一个数据的分类次数达到更新分类器的效果。与第一部分相似,采用Kappa系数检测概念是否发生变化,引入类规模更新衰减因子_tw,每到来一个数据就要更新一次_tw的值,根据_tw利用Possion分布得到分类次数,达到重采样的效果,从而处理了非平衡问题。实验结果表明,该算法不但能检测到概念漂移,还能很好的提高算法的分类性能。针对数据流中存在的概念漂移和不平衡问题,本文提出了两种基于集成学习的数据流分类算法,不但有效的检测出数据流中存在的概念漂移,而且提高了少数类的分类精度。但这两种方法也有一定的局限性,比较依赖于数据集内部结构,如何将概念漂移检测和非平衡处理有效地结合仍待进一步的研究。