论文部分内容阅读
由于数据流的快速性、海量性且持续到达的独有特性,使得以往针对传统静态数据的聚类算法失效,如何利用有限的存储空间对实时数据流进行快速分析,进而准确有效地从数据流中挖掘出有价值的知识和信息,是目前数据挖掘领域中的一个难题。因此,研究设计出适应数据流特性的聚类算法,是十分重要的,也是很有现实意义的。本文在分析研究了传统聚类算法和数据流聚类算法的优缺点后,在PDStream算法的基础上进行改进,提出了一种新的基于密度维度树的增量式网格聚类算法IGDDT。该算法引入一种模式快照策略,来确定下一次聚类的时刻以及保存模式快照的时刻,并可以充分利用前一次聚类的结果更新现有聚类簇,这种增量式的聚类方法可以有效提高聚类效率。同时,在聚类过程中采用新的网格划分策略对网格单元再次进行均匀划分,以达到精确描述聚类边缘,提高聚类的质量的目的。在真实数据集与仿真数据集上的实验结果表明,IGDDT算法不仅可以发现任意形状的聚类,而且聚类准确度以及聚类效率均要高于传统的网格聚类算法。