基于密度和网格的数据流聚类研究与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:jakey17866747
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的飞速发展,人类获取知识能力越来越强。近些年来随着无线传感器网络、路由器等设备的出现,人们获取数据的能力得到了极大的提高。出现了一种新的数据模型—数据流模型。该模型中待处理的数据不再被静态、固定地存储在可多次、随机访问的介质中,而是以一种动态、流式的形式出现。访问数据的方法被限定为进行顺序的、一次或有限次的访问。目前关于数据流挖掘的研究主要有数据流聚类、分类、频繁模式挖掘等等。本文通过研究传统的基于密度和基于网格的聚类方法,发现传统的基于密度的聚类方法要求多次访问数据,并且不能动态地生成聚类结果;而传统的基于网格的聚类算法虽然能一次读取数据,并且能很快的处理数据,但它降低了簇的质量和精确性。传统的基于网格和基于密度的聚类算法均不能满足数据流聚类的要求。本文结合传统聚类算法的一些方法提出了一种采用树型概要结构的密度网格树数据流聚类算法DG-Tree(Density and Grid-Tree Algorithm)。该算法利用数据流聚类算法CluStream中的处理框架,把聚类分为微聚类和宏聚类两个过程。在微聚类过程中,通过把数据流按属性值分配到一棵树中,消除了空网格对聚类结果的影响,同时针对数据流聚类中,近期的数据往往比久远的数据更受关注的特点,引入了时间衰退模型;在宏聚类过程中,对微聚类中生成的树中的叶子节点进行密度聚类,通过设立噪音密度阀值函数和更新周期,不仅可以有效的发现噪音叶子节点,还减少了密度聚类中对叶子节点密度更新的计算量,减少了算法的时间消耗。通过在KDD Cup 99数据集上的实验表明,相比DBScan算法和CluStream算法,DG-Tree算法在时间效率上有很大提高。
其他文献
伴随经济快速发展,船舶行业竞争日趋激烈,因此需要结合环境保护,开发可利用的新能源,如太阳能、液压天然气、氢能与核能等,这些新能源不仅蕴含了丰富的动力资源,更可以有效推
集群系统是近几年来世界上进行大规模并行计算的首选系统,与以前的紧密耦合超级计算机相比,集群系统采用的是松散耦合的体系结构。一个集群组通常由许多个独立的计算节点组成
水火弯板工艺是船舶制造中船体外板加工成形的关键工艺之一。由于目前加工装备难以灵活地加工生产双曲率或形状特殊的外板,所以这一类外板长期由传统的手工弯板作业满足生产
象视频和音频流、在线游戏、视频会议,口语音(VoIP)和文件传输协议这些应用(FTP)需要范围广泛的服务质量要求,例如带宽和延时。现有的无线技术能够满足不同种类流量的要求,但
随着下一代网络的发展,电信网络与因特网逐渐融合。基于下一代网络的开放体系结构特点及开放网络能力的特点,第三方可以基于开放增值业务接口快速的开发增值业务,从而增强了
随着Internet的飞速发展,Internet的影响已经渗透到我国国民经济和个人生活的各个方面。Internet用户数量与日俱增,许多新的网络服务和应用如电子商务、电子支付等被越来越多的
学位
本文对自行设计的球台固定壁旋流式气力分级机模型进行了研究,对它内部的流场进行了测试,找出了流场的分布规律。 In this paper, a self-designed fixed wall swirling pneum
随着多媒体技术的持续发展和人们对视觉体验追求的不断提高,传统的2D显示已无法满足大众需求。自由视点视频可以让用户通过交互的方式从任意的视角选择、操作具有立体感的多
他被授予“联合国和平勋章”、“公安部维和勋章”;他先后荣立二等功3次、三等功5次;他入伍时仅有初中文化,却发表新闻作品2500多篇(幅)。他说:“我今天的一切,都源于党的培
随着无线接入技术的不断演进,高性能移动台不断出现,新的智能移动台价格也是越来越来昂贵,这使得移动台盗窃现象日益严重。为此,3GPP提出了EIR(设备识别寄存器)网元的概念,在全球