论文部分内容阅读
数据流聚类是数据挖掘领域的一个重要研究方向,其研究成果已被应用于诸多领域。然而传统数据流聚类算法不适应于不确定数据流,而且在聚类过程中不能对数据流中近期的数据进行详细的分析。这给数据流聚类研究带来新的挑战和难题。本文对基于滑动窗口的不确定数据流聚类算法进行了研究,给出了一种滑动窗口下的指数直方图中桶的过期时间点选择策略,基于一种局部离群点检测方法,给出了一种离群点处理机制。本文的主要工作概括如下:1.概述了数据流挖掘技术、不确定数据流的产生原因及描述方式,介绍了不确定数据流聚类的研究方向以及相关算法。阐述了离群点数据检测的必要性。2.分析了现有基于滑动窗口的数据流聚类算法的局限性,给出了一种滑动窗口下的指数直方图中桶的过期时间点选择策略,同时给出了滑动窗口下面向不确定数据流的聚类算法ESWUStream,实验表明该算法可以取得较高的聚类质量。3.详细分析了离群点数据对聚类结果的影响,引入一种局部离群点检测方法,给出了一种基于缓冲区的离群点处理机制。仿真结果表明这种机制可以有效地降低离群点数据对聚类的影响。