论文部分内容阅读
随着对数据挖掘技术需求的不断深化,例如实时监控、网络入侵检测、垃圾邮件处理、信息智能推送等,数据挖掘技术由最初的分析静态有限的数据,逐渐发展到现如今的分析动态无限数据。数据流分类技术已经成为数据挖掘中的一个研究热点。数据流是以流的形式实时到达的动态数据,具有数据量大、到达速度快、连续实时到达等特点。由于数据流发生的概念漂移现象会导致分类器的性能下降,因此,本文首先对数据流进行概念漂移检测,在分析数据流所具有的特性的基础上提出了一个有效的概念漂移检测方法;然后对检测后的数据进行分类,并提出了一个数据流选择集成分类方法,以提高数据流的分类性能。本文的具体研究内容如下:(1)针对数据流中存在的概念漂移问题,提出了一个基于余弦相似度的概念漂移检测算法。提出的算法首先运用滑动窗口原理将数据流看成连续相等大小的数据块,并求出数据块中各类的质心。然后分别计算相邻两块各类质心连线的余弦相似度,余弦相似度越大,表明相邻两数据块质心连线夹角越小,相邻两数据块发生漂移的可能性越小;反之,相邻两数据块质心连线夹角越大,相邻两数据块发生漂移的可能性越大。最后根据参数估计的方法求出余弦相似度的最小置信区间,若后续到达的数据块相对于前一数据块的余弦相似度不在置信区间内,则认为数据流在当前块发生了概念漂移。实验表明基于余弦相似度的概念漂移检测算法能够有效的检测出数据流上发生的概念漂移,从而提高了数据流分类的准确率。(2)针对数据流的分类问题,提出一个基于差分进化的选择集成分类算法。首先将数据流分成连续相等大小的数据块,使用当前的数据块训练出若干个基分类器。然后用差分进化方法对各个基分类器分别赋予不同的权值,基分类器的权值越大,表示在分类中的表现越优。最后在所有基分类器中选择几个权值最大、表现最优的基分类器进行加权投票集成,使用集成的分类模型分类之后到达的数据块。实验表明基于差分进化的选择集成分类方法具有稳定性好、泛化性强、分类准确率高等优点。