【摘 要】
:
由于数据流快速、连续到达的大量数据使大多数的传统的聚类方法失效,因此数据流领域里的数据挖掘中的聚类是一个难题。不能满足应用要求的传统的数据聚类算法极大地制约着数
论文部分内容阅读
由于数据流快速、连续到达的大量数据使大多数的传统的聚类方法失效,因此数据流领域里的数据挖掘中的聚类是一个难题。不能满足应用要求的传统的数据聚类算法极大地制约着数据流的应用与发展。因此,研究和设计适应数据流特点的聚类算法,具有很大的现实意义。本文研究了传统聚类算法和数据流聚类算法,分析了各种算法的优点及不足,在传统聚类算法、数据流核心技术和典型数据流聚类算法的基础上,设计并实现基于网格与密度的数据流聚类算法GDClu。该算法借鉴CluStream算法的双层处理框架,将数据流聚类分为在线处理层和离线聚类层;在线处理层快速读取数据流中到达的数据,将每一个数据点映射到对应的网格单元和区域,形成相关的统计信息,并将其存储在作为概要数据结构的网格的特征向量中。利用改进后的金字塔时间框架定时存储快照形式的概要信息,来满足用户对历史数据流信息聚类和数据流演化分析的需求;离线层对在线层所获得的概要信息进行精确聚类,是以网格单元的特征向量中的密度作为聚类依据的。这两层处理框架的结合实现了数据流聚类的精确度和速度的折中。为了提高聚类的质量,还将网格单元细分后构成的小区域作为聚类最小单位,只要网格单元中有DENSE区域与聚类边缘的DENSE区域相邻,就将该网格单元聚类到该类,为此本文提出了DENSE区域的相邻判断算法。以此来判断聚类边缘的网格单元及相邻的网格单元中是否有相邻的DENSE区域存在,更有效地支持GDClu算法的实现。实验结果表明GDClu算法可以发现任意数目、任意形状的聚类,还能有效去除噪声数据,是一个具有应用前景的适用于流数据挖掘的聚类算法。
其他文献
随着工业的发展,对产品设计、产品制造都需要进行材料的选择,不同材料选择的主要依据之一就是材料的耐腐蚀性,在自然环境条件下,受各种因素的影响,材料的表面会呈现出各种腐
网络模拟已成为研究Internet的重要手段,然而互联网的规模、复杂性、异构性等问题严重制约着互联网行为的研究。由于异构、复杂、大规模的网络模拟需要耗用巨大的计算资源,无
在无线传感器网络(Wireless Sensor Network,WSN)中,溯源数据(Provenance)是评估数据可信性的重要依据之一,Provenance记录了一个数据包从产生至被传输至基站(BS)途经的全部
基于帧内编码地理信息视频系统是一个结合了地理信息系统和视频系统的综合应用系统。在地理信息和视频结合的需求不断增长的大背景下,本文对现有的地理信息系统和视频系统的
随着全球经济一体化的深入发展,敏捷的、不受限制的集成业务流程的需求已经成为关键的业务需求。在这种状况下,面向服务的架构(Service Oriented Architecture, SOA)应运而生
近年来,随着多核处理器的迅速普及,多核并行计算已经成为计算机领域的一个重要研究课题。尽管多核处理器的计算能力显著提升,但是由于当前大量软件都是基于单核处理器开发,不
近年来,虚拟现实技术已成为计算机应用领域的研究热点之一。它利用计算机多媒体技术在计算机系统中仿真真实世界的环境,通过计算机的相关设备来模拟人体的视觉、听觉等真实感知
软件复用是提高软件生产效率和提高软件质量的关键技术,软构件是软件产品族的核心资产之一,通过对产品族构件的复用,能有效缩短产品族软件开发周期。本文结合软构件技术,在已
特征选择是机器学习领域的研究的重要内容之一。随着应用于机器学习领域的数据维数不断升高,数据存储、运算,都消耗了大量的计算机资源。为了节省资源,避免所谓“维数灾难”
城市交通网络是一个典型的复杂网络。它具有复杂的动力学行为、时空特性和结构特征。目前,如何运用复杂网络的研究方法去分析交通网络的复杂性已经成为研究者们关注的热点。利