基于密度网格的分布式数据流聚类算法设计与实现

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:mayflysnow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络和分布式数据库技术的迅猛发展和广泛应用,各个领域每天都以惊人的速度产生和积累着大量的数据,如何有效地分析这些数据,并从数据中提取出有价值的信息和知识,显得尤为重要。然而,由于实际应用中数据的安全性、私有性、保密性以及网络的带宽等的种种限制,使得传统的单数据流挖掘方法在分布式数据流环境下已不能完全适用,因此分布式数据流挖掘成为了新的研究热点。  聚类分析作为数据挖掘中一个重要的研究领域,许多学者已经对其进行了深入的研究,提出的大量基于单数据流的聚类理论和算法相对比较成熟。而分布式数据流聚类挖掘研究现尚处于起步阶段,可供参考的资料并不多。虽然单数据流的聚类方法不能完全适用于分布式数据流环境,但为研究分布式数据流的聚类方法提供了重要的基础,可以对其进行合理的改进和优化使之良好地适应于分布式数据流环境。  针对分布式数据流的聚类问题,本文主要完成了如下的研究工作:  (1)提出了一种基于密度网格的分布式数据流聚类挖掘模型(DensityGrid-based Distributed Clustering Model,DGDCM)。  (2)在局部站点,提出了一种基于密度网格的局部在线增量式快速更新算法(Local Online Incremental Quick Updating Algorithm,LOIQU)。该算法通过滑动窗口模型来处理单数据流的增量式更新,再将最新的数据概要信息发送给中心站点以生成全局聚类模型。  (3)在中心站点,提出了一种基于密度网格的全局聚类算法(DensityGrid-based Global Clustering Algorithm,DGGC)。该算法负责对所有局部站点发送的最新数据概要信息进行整理,然后在全局的密度网格结构上进行聚类挖掘,生成全局初级的聚类模型。  (4)在中心站点,提出了一种基于密度网格的疑似噪声网格优化算法(Optimization Algorithm of Suspected Noise Grids,OSNG)。该算法通过对DGGC算法生成的全局初级聚类模型进行优化,有效提高了全局聚类模型的精度。  (5)本文对DGDCM所生成的全局聚类模型与相关分布式数据流聚类算法的聚类模型进行了实验对比。实验结果表明,本文提出的聚类挖掘模型在局部站点快速反映数据流变化信息和减少网络通信代价的同时,也获得了较高精度的全局聚类模型,并且适用于带噪声、高维的分布式数据流环境。
其他文献
随着半导体工艺的迅速发展,晶体管的数量及处理器芯片的制程工艺不断提高,使处理器的集成度越来越高。然而,片上集成元件数量的增加使得处理器芯片的功耗密度急剧增长。目前,多核
视觉注意机制使人类能够高效的处理外界环境信息,进行目标检测。计算机视觉系统也面临同样的问题:如何实时有效的处理大量的视觉数据,如何智能化的根据场景的需求来有效的处理其
支持向量机(Support Vector Machine,SVM)是一种建立在结构风险最小化原理基础之上的机器学习算法,能够很好的解决小样本、非线性、高维数和局部极小点等实际问题。支持向量机
随着互联网技术的飞速发展,网络技术日益广泛的应用于商业、金融、国防等各个领域,并影响着人们生活和工作的方方面面。但是网络固有的互联性和开放性导致其安全问题成为未来网
时序协作逻辑(Temporal Cooperation Logic)是软件模型检测领域的博弈逻辑分支上的重要成果。它扩展了交互时间逻辑(Alternating-time Temporal Logic)[1],完善了基本策略交互
云计算是一种新的网络化IT服务模式,它的目标是像供水、供电一样,组织大规模的计算和存储资源向用户提供便捷、经济、全面的服务。也正是云计算的这些优点才吸引了越来越多的企
随着多核系统片上集成的CPU核数的增多,系统对Cache的访存需求也急剧增加,因此,片上Cache的容量也势必会增大,从而其消耗的能量也越来越多。能量的巨额消耗,会引起系统温度的上升,
在机器学习的研究中,间隔最大化是构造最佳分类超平面的有效策略,也是支持向量机的训练目标。在数据集线性可分的情况下,间隔可被定义为距离分类超平面最近的样本点到分类超平面
有限元方法是工程科学、计算方法和计算机技术相结合的产物,其在处理复杂边界问题上具有很强的灵活性,已经成为一种非常有效的用于工程计算的数值分析方法。  结构工程有限元
在涉及航空航天、交通指挥、军事、核工业等一些关键领域,系统一次计算的正确性,不单单取决于其计算逻辑的正确性,同时也与运行结果的产生时间、持续时间等有很大的关系。这样的