基于DBSCAN的分布式聚类及增量聚类的研究与应用

来源 :北京工业大学 | 被引量 : 14次 | 上传用户:aaajansen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的快速发展,存在于人们日常生产生活中的数据呈海量式增长。如何从海量数据中挖掘出隐含的信息对于指导人们的生产生活至关重要,而聚类是数据挖掘的重要基础。目前专家、学者对海量数据聚类进行了深入研究并取得了大量成果,但是如何提高海量数据的聚类效率和聚类精度仍是当前的研究重点。本文主要工作如下:(1)针对传统的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法进行研究,针对其内存消耗严重以及对参数敏感的不足,提出了基于DBSCAN和核密度估计的分布式聚类算法。该算法将海量数据分发到多个节点上,然后在每个节点上采用核密度估计方法得到本节点最优参数Eps和MinPts,根据所得参数进行局部聚类,最后提取所有局部聚类结果中的核心对象、边界信息和噪声点按照合并规则进行合并,得到最终聚类结果。实验结果表明,该算法不仅提高聚类效率,同时改善了聚类质量。(2)针对当前聚类算法在增量数据聚类过程中的效率问题,提出了基于DBSCAN的增量聚类算法。面对不断增长的海量数据,该算法只对增量数据进行聚类,然后将聚类结果按照密度可达规则纳入到初始聚类结果当中,得到最终聚类结果。增量聚类算法避免了增量数据聚类过程中初始数据的“二次聚类”问题,从而大大提高了增量数据的聚类效率。(3)在分布式聚类算法和增量聚类算法的基础上,结合分布式框架Storm,实现了网络数据聚类系统。该系统从各个站点的网络设备中采集原始网络数据,然后对这些原始网络数据进行清洗过滤和预处理,将其转化成可用于聚类的标准数据格式,最后对这些海量网络数据进行分布式聚类和增量聚类,生成聚类结果。该系统完成了网络流量数据的一站式聚类处理,实现了对海量网络数据稳定、高效地聚类分析。
其他文献
本文是“十五”军事电子预研项目“C~3I系统应用软件逆向工程开发工具研究”中的一部分。本项目的目标是提供一套逆向工程工具,以提供符合UML标准的动态模型的逆向生成、符合U
该文作者利用现代多媒体技术、计算机技术和通信技术,分析了目前通信领域使用的各种通信设备,以及所提供的服务和新的增值业务,提出了一种新型的信息话机的概念模型,并较为详
该文对多媒体文件集成和储存系统的错误隐藏进行了较为系统和全面的理论和方法的研究.主要研究内容包括:集成文件系统模型、存储系统资源调度、媒体相关的传输策略、存储系统
本文首先阐述了全球定位系统(GPS)、地理信息系统(GIS)、移动单元与监控中心之间的通讯方式和系统集成的方法,继而介绍了在常规电台通讯方式下系统的总体结构、功能、工作原理
提高原料转化率意味着降低生产成本,增加生产效益,这对化工生产企业至关重要。在现有装置基本不变的情况下,利用软测量技术、先进控制和优化控制等技术手段提高转化率有显著的现
该文讨论了利用数据仓库技术将分析决策所需数据从企业日常运行环境中分离出来的,使用户能够方便地提取所需的数据,同时又不干扰业务数据库的正常运行.解决方案是在原有数据
该文以信元模型为基础,对基于视图的信元语义协调机制进行了深入的研究,并在此基础上设计和实现了信元协调器.为了满足信元集成的冲突解决问题,即信元的语义协调问题,在保持
从Ada83到Ada95的源语言Ada83应用系统的维护和升级具有重要意义.该文在分析研究Ada兼容性指南的基础上,提出了一个Ada83到Ada95兼容性转换的解决方案,采用基于源语言级转换
该文针对KVM现有产品的不足和用户的要求,首先提出了远程控制和服务器远程复位思想,然后描述了IC总线的特性,并根据总线的特征,结合系统通信的特性,给出了一种模拟的IC通信协
电子邮资是指邮政通过互联网提供邮资服务,用户通过因特网向邮局购买邮资,并在本地打印出被邮局认可、跟普通邮票具有相同作用的邮资凭证,用以寄信和邮寄包裹等。电子邮资是传统