论文部分内容阅读
随着网络和分布式数据库技术的迅猛发展和广泛应用,各个领域每天都以惊人的速度产生和积累着大量的数据,如何有效地分析这些数据,并从数据中提取出有价值的信息和知识,显得尤为重要。然而,由于实际应用中数据的安全性、私有性、保密性以及网络的带宽等的种种限制,使得传统的单数据流挖掘方法在分布式数据流环境下已不能完全适用,因此分布式数据流挖掘成为了新的研究热点。 聚类分析作为数据挖掘中一个重要的研究领域,许多学者已经对其进行了深入的研究,提出的大量基于单数据流的聚类理论和算法相对比较成熟。而分布式数据流聚类挖掘研究现尚处于起步阶段,可供参考的资料并不多。虽然单数据流的聚类方法不能完全适用于分布式数据流环境,但为研究分布式数据流的聚类方法提供了重要的基础,可以对其进行合理的改进和优化使之良好地适应于分布式数据流环境。 针对分布式数据流的聚类问题,本文主要完成了如下的研究工作: (1)提出了一种基于密度网格的分布式数据流聚类挖掘模型(DensityGrid-based Distributed Clustering Model,DGDCM)。 (2)在局部站点,提出了一种基于密度网格的局部在线增量式快速更新算法(Local Online Incremental Quick Updating Algorithm,LOIQU)。该算法通过滑动窗口模型来处理单数据流的增量式更新,再将最新的数据概要信息发送给中心站点以生成全局聚类模型。 (3)在中心站点,提出了一种基于密度网格的全局聚类算法(DensityGrid-based Global Clustering Algorithm,DGGC)。该算法负责对所有局部站点发送的最新数据概要信息进行整理,然后在全局的密度网格结构上进行聚类挖掘,生成全局初级的聚类模型。 (4)在中心站点,提出了一种基于密度网格的疑似噪声网格优化算法(Optimization Algorithm of Suspected Noise Grids,OSNG)。该算法通过对DGGC算法生成的全局初级聚类模型进行优化,有效提高了全局聚类模型的精度。 (5)本文对DGDCM所生成的全局聚类模型与相关分布式数据流聚类算法的聚类模型进行了实验对比。实验结果表明,本文提出的聚类挖掘模型在局部站点快速反映数据流变化信息和减少网络通信代价的同时,也获得了较高精度的全局聚类模型,并且适用于带噪声、高维的分布式数据流环境。