论文部分内容阅读
随着科学技术的不断发展,各种应用的普及和深入,其所产生数据量急剧增长,同时很多数据是动态的、流式的,需要进行实时的处理和挖掘分析。对于数据流聚类问题来说,国内外学者已经进行了许多探索和研究,目前已经存在一些不同种类的数据流聚类算法,然而这些算法仍然存在许多问题,比如不能适应数据流速度变化、对大规模数据流聚类的效率不高和分布式并行条件下质量不好等等。 近年来,云计算平台在不断出现和完善,具有很好的分布式并行计算能力,基于云平台技术的数据挖掘和分析也获得了广泛的关注和认可,为提高数据流聚类的效率提供了新的途径。但是由于Storm的发展历史相对较短,在其基础上进行数据流聚类的研究还不多见。 本文在针对数据流聚类问题的要求和特点基础上,经过对多个云计算模型的比较分析,在Storm基础上提出基于Storm的数据流聚类模型,对经典的数据流聚类算法CluStream做了改进,提出微簇簇密度的概念和动态可调的滑动时间窗口,在聚类模型的基础上设计并且实现了S-CluStream。在CluStream在线和离线两阶段聚类的思想下,本文将其在线聚类过程分成局部微簇更新和全局微簇合并。因此,S-CluStream将数据流聚类分为四个过程,即聚类初始微簇的确定、局部聚类微簇的实时更新、局部聚类微簇的全局合并和全局微簇的聚类,达到了实时高效地对数据流进行聚类分析。 为了检验基于Storm的数据流聚类算法的有效性,本文设计和搭建了Storm实验集群,从演化性、聚类质量和聚类效率等多个方面加以考察。测试结果表明算法具有演化性,同时在聚类质量和聚类效率上均有提高。