论文部分内容阅读
空间聚类分析作为聚类分析的一个重要研究方向,是指将空间数据集中的数据对象分成由相似数据对象组成的类,同类中的数据对象间具有较高的相似度,而不同类中的数据对象间差异较大。它不仅是空间数据挖掘的重要方法,也是其它挖掘任务的前奏。在当今这个信息技术高速发展的时代,数据信息呈多样化、海量化、高维化趋势发展。面对大量的空间信息,能够快速准确地从中提取隐含的有用知识,来指导实践,日益成为人类的迫切需求,但在单机上进行传统的串行聚类分析就会面临内存容量、CPU处理速度等瓶颈问题,很难满足实际需求。虚拟化与并行技术的出现,为其提供了很好的解决方案。云计算作为目前国内外研究的热点,是网格计算、并行计算、分布式计算的发展,其思想是在并行化计算与存储思想的基础之上发展而来的。它可以有效地解决分析和处理海量数据时所面临的问题,为海量高维空间数据的聚类分析提供了强有力的支持。特别是Google的MapReduce分布式编程模型的提出,使聚类算法的并行化实现变得更为简单可靠。本文在深入研究空间聚类算法与云计算关键技术HDFS(Hadoop Distributed FileSystem)和MapReduce的基础之上,实现了并行化K-Medoids和PGDC算法的MapReduce模型,并对改进算法进行了仿真实验,对实验结果进行了深入分析。本文主要研究内容包括以下几个方面:1)研究空间聚类算法,对各种聚类算法的基本原理及其优缺点进行分析总结。2)研究并行化思想和云计算及其关键技术,在云计算环境下对空间聚类算法进行深入分析研究,将聚类算法与MapReduce编程模型相结合,研究建立并行化聚类模型。在分析比较基于Hadoop平台的K-Means和Canopy-K-Means等并行化算法的基础上,提出了改进的K-Medoids和基于网格密度的PGDC并行化算法,并对其进行了实现。3)对并行化聚类算法进行了仿真实验,分别从算法的有效性、加速比和可扩展性三方面对算法进行了深入分析,并以粮库选址模型为例,对算法进行了实际应用测试。实验测试结果表明,提出的并行化聚类算法能够高效的得到较好的聚类结果,在大数量数据集上具有较强的存储能力和计算速度,在实际应用当中有较高的实用性和可扩展性。