论文部分内容阅读
随着网络的普及和传感器的大规模应用,数据流的产生方式越来越多。数据流的聚类算法研究也越来越引起研究者的关注。数据流具有次序性、实时性、连续性等特点,传统的聚类算法难以对其进行有效聚类。目前,学术界已经对数据流的聚类算法进行了不少研究工作,开发出一些数据流聚类算法。但是由于数据流聚类的复杂性和应用的多样性,现有算法性能仍然有待于进一步提高。已有算法的缺陷主要表现在:聚类结果的精度不够高、多维数据的聚类正确率低、分布式环境下的聚类困难等。本文利用基于密度的聚类技术,研究数据流聚类算法。主要工作如下:1、提出一种基于星型网格的数据流聚类算法:GDH-Stream算法。首先,已有基于密度的数据流聚类算法未考虑数据的空间分布信息,导致聚类结果不够精确。针对这种缺点,本文提出利用数据点空间分布信息的策略,提高了聚类结果的精度。其次,针对网格聚类方法因多维空间的网格数目剧增而造成算法效率过低的问题,本文设计了一种适用于网格的新的星型结构,降低了网格列表中结点的个数,提高了算法的时间性能。再次,论文结合分层聚类方法,改造了微簇特征树的结构,减少算法扫描数据集的遍数,提高了算法的效率。最后,论文分析了所提算法的时空复杂度,并通过一系列的实验验证了所提算法的有效性。2、提出一种基于改进网格密度的分布式数据流聚类算法:DGDH-Stream算法。首先,将分布式环境下数据流聚类分成局部聚类和全局聚类,并提出一种分布式数据流聚类模型,增强了算法的扩展性。其次,设计了一种针对微簇的新的压缩技术,将局部聚类中产生的微簇进行压缩,降低了分布式系统的负荷。最后,论文分析了所提算法的时空复杂度,并通过通过实验对DBDC算法、DGDH-Stream算法的性能和聚类质量进行了比较,结果表明本文所提出的算法优于对比算法。