论文部分内容阅读
随着现代计算机技术、通信技术及互联网技术的迅速发展,电子商务等领域正面临海量的流式数据。同时,由于数据产生的随机性和数据收集的不完全性,数据采集过程中产生了大量的不确定数据流。不确定数据流的聚类算法既要满足数据流的连续性、无限性和不可预知性,还要降低数据的不确定性造成的影响,还要避免异常数据对聚类结果的影响。因此,探索高效的不确定数据流聚类方法,成为当今数据挖掘中一个重要的研究课题。本文针对不确定数据流的特点对其聚类问题进行研究,采用基于密度和网格的聚类方法以及CluStream双层框架,给出了GDU-Stream算法和EGDU-Stream算法,解决不确定数据流的聚类问题和聚类时的异常数据问题。本文的主要工作概括如下:1.概述了数据聚类的几种常用方法,详细分析了基于密度和基于网格相结合进行聚类的优缺点;阐述了不确定数据流的数据模型及其聚类的特点和难点,当前比较成熟的聚类算法已经不能适应不确定数据流的聚类要求。2.分析了不确定数据对聚类产生的影响;设计了不确定数据流聚类算法中的概念模型;在CluStream双层框架的基础上,给出了基于密度和网格的不确定数据流聚类算法GDU-Stream,并通过仿真实验表明该算法的准确性和高效性。3.详细分析了基于密度和网格的方法处理异常数据的性能;针对不确定数据流中异常数据和聚类的关系问题,对GDU-Stream算法进行改进和扩展,给出了一种带有异常数据清除机制的EGDU-Stream算法,并通过仿真实验表明该算法既能够有效清除数据源中的异常数据,同时又能准确高效的完成数据聚类。