流数据聚类算法的研究与改进

来源 :河北工业大学 | 被引量 : 2次 | 上传用户:wugenkuaizi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着计算机技术和信息全球化的高速发展,我们迎来了大数据时代,人们面临着从数据中获取有用信息以支持更好的决策和发展。面对着源源不断产生的大量的流数据,如何从流数据中获取知识越来越得到重视。设计并实现一种既聚类质量好和聚类效率高的数据流聚类算法是本课题的主要研究内容,主要工作内容如下:在对课题的领域进行深入理解以后,研究了流数据的特性和处理流数据的聚类的要求与技术;总结了目前较经典的流数据聚类算法的实现技术和优缺点进行了;并对基于网格的聚类算法进行重点研究。在以上工作的基础上设计并实现了DD-Stream算法,该算法采用了CluStream算法中提及的双层框架的思想。在在线层,不断顺序访问数据集中的数据点,根据维度半径的大小并按照一定的规则对数据空间进行划分,从而形成网格结构,并得到数据流的概要信息,同时以网格单元特征向量的形式记录这些信息。其中,为每个数据点设置了密度系数,密度系数和该数据点到达的时间点有关,它随着时间递减,将历史数据和当前数据的重要性区别开来,体现了流数据的演化特征。同时,每个网格都有网格密度,每一个网格的网格密度由所有映射到该网格的数据点的密度系数形成,因此,网格密度随着时间或者随着新数据点的不断加入而更新着。在后台离线层把稠密网格衰退成稀疏网格的最小时间gap作为确定检查、更新网格的时间间隔的长度,并根据网格密度和连通性对网格进行聚类,聚类分成初始化聚类和调整聚类两种,初始聚类只在第一个gap时进行聚类形成初始聚类的结果,在此基础上以后每隔gap就对网格进行聚类并对满足条件的稀疏网格进行删除,同时调整簇聚类。最后,通过在人工数据集和真实数据集上对算法进行实验验证,证明了算法取得了满意的聚类质量和聚类效率,能对流数据进行高速有效的聚类分析。
其他文献
基于图像序列跟踪目标的运动是计算机视觉的基本问题之一,它在图像及影片的重建、视频监控、医学图像分析及运动重建方面,都有广泛应用。在该领域常用的方法有利用Kalman滤波
本论文分析了良好的物流数据交换技术对于当今企业发展的重要性。总结了国内外数据交换技术发展的现状。并构建了基于XML的物流数据交换中心。主要工作涉及以下几个方面: 1
随着Internet的飞速发展和普及,Web应用呈现出多功能化发展趋势,同时对Web应用框架支持多界面性、可扩展性、易维护性提出越来越高的要求。然而,目前面向过程的Web应用技术很难
基于混沌的数字图像加密算法中,序列流式加密算法是主流研究方向。目前的算法生成的密文只与生成的密码序列值相关,是由一个密钥决定的从明文空间到密文空间的可逆变换,虽然
互联网拥有全世界最全最大的信息资源,丰富的资源给人们的生活和学习带来了便利的同时,也引发了信息过载的问题。如何让没有明确目标的用户能准确找到满意的信息资源,成为目前信
据统计,一个组织的数据量每5年翻一番,如何管理这些庞杂的数据并使之用于决策支持就成为每个组织的迫切要求。数据仓库(Data Warehouse)技术就是在这样的要求下产生并发展起来
随着Internet的发展和电子技术的不断进步,人们将Internet的触角伸向了工业控制领域,Internet进入“嵌入式Internet”时代。利用MCU实现嵌入式Internet方案的技术难点在于如何
该课题的开发旨在充分利用中、小规模高校现有的软、硬件条件和网络资源,在没有太多投资的情况下,建立起一个基于Internet的科研管理系统.该文的主要特点表现在:1.针对中、小
随着Internet的迅速普及,挖掘分布的数据已经成为数据挖掘领域面临的一个主要挑战。由于节点是物理分布的,处理的是海量数据,同时还要兼顾数据的安全性以及非共享数据的隐私性,分
Web服务器集群系统已经成为当今Web站点普遍采用的服务器体系结构,伴随着大量重要业务向Web服务方式的迁移,提高和保证Web集群服务的安全性变得至关重要。 本文深入研究了We