论文部分内容阅读
离群点检测和聚类问题作为数据挖掘领域的经典课题,一直受到学术界的广泛关注。然而,随着传感器网络的普及以及“大数据”时代的到来,越来越多的数据由传统的静态数据向动态数据流的形式进行转变,这给基于静态数据的离群点检测方法和聚类方法带来了新的挑战。与静态数据相比,动态数据流具有海量性、实时性和动态变化性的特点,在特定的场景下,这些数据还可能具有高维性。这些特性大大增加了离群点检测和数据分类聚类的难度。本文从数据流的基本特性(海量行、实时性、动态变化性、高维性)入手,对数据流挖掘问题展开研究,主要工作和研究成果如下:1.为了解决传统基于滑动窗口的离群点检测算法(Sliding Window-based Data Stream Outlier Detection,SWDSOD)在某些场景(如正弦波形信号中的离群点)中检测不准确的问题,提出了一种基于衰减模型的数据流离群点检测方法(Fading Model-based Data Stream Outlier Detection,FMDSOD),该算法不仅考虑了根据时间间距计算任意两个点之间的权重影响因子,而且还通过定义巧妙的数据结构降低了原算法的计算量。通过实验分析论证,FMDSOD算法无论从准确率还是执行效率都比SWDSOD要好。2.为了解决数据流聚类算法E-Stream算法在进行高维数据流聚类的时候性能急剧下降的问题,本文提出了一种计算簇的特征维的方法,通过分析样本数据流形成的每个簇的特征维,在判断新到达的数据点属于那个簇的时候,只有与该簇相关的特征维参与计算,忽略掉冗余维的计算,有效减少了算法的计算量,在聚类纯度与原算法纯度不相上下的情况下有效的提升了算法的执行效率。该方法的引入,很好的弥补了E-Stream算法在高维数据流聚类时的不足。3.采用上述提出的两种方法,设计并实现了分布式数据流处理系统,包括数据流离群点检测和数据流聚类方案。FMDSOD算法完成系统中离群点检测模块,基于特征维的数据流聚类算法实现系统处理高维数据流时的数据聚类任务。通过系统部署运行测试,两种算法最终都达到了预期的效果,具有较高的实用价值。