论文部分内容阅读
随着互联网和信息技术的快速发展,存在于人们日常生产生活中的数据呈海量式增长。如何从海量数据中挖掘出隐含的信息对于指导人们的生产生活至关重要,而聚类是数据挖掘的重要基础。目前专家、学者对海量数据聚类进行了深入研究并取得了大量成果,但是如何提高海量数据的聚类效率和聚类精度仍是当前的研究重点。本文主要工作如下:(1)针对传统的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法进行研究,针对其内存消耗严重以及对参数敏感的不足,提出了基于DBSCAN和核密度估计的分布式聚类算法。该算法将海量数据分发到多个节点上,然后在每个节点上采用核密度估计方法得到本节点最优参数Eps和MinPts,根据所得参数进行局部聚类,最后提取所有局部聚类结果中的核心对象、边界信息和噪声点按照合并规则进行合并,得到最终聚类结果。实验结果表明,该算法不仅提高聚类效率,同时改善了聚类质量。(2)针对当前聚类算法在增量数据聚类过程中的效率问题,提出了基于DBSCAN的增量聚类算法。面对不断增长的海量数据,该算法只对增量数据进行聚类,然后将聚类结果按照密度可达规则纳入到初始聚类结果当中,得到最终聚类结果。增量聚类算法避免了增量数据聚类过程中初始数据的“二次聚类”问题,从而大大提高了增量数据的聚类效率。(3)在分布式聚类算法和增量聚类算法的基础上,结合分布式框架Storm,实现了网络数据聚类系统。该系统从各个站点的网络设备中采集原始网络数据,然后对这些原始网络数据进行清洗过滤和预处理,将其转化成可用于聚类的标准数据格式,最后对这些海量网络数据进行分布式聚类和增量聚类,生成聚类结果。该系统完成了网络流量数据的一站式聚类处理,实现了对海量网络数据稳定、高效地聚类分析。