论文部分内容阅读
空间数据挖掘是对空间数据中的隐含知识、空间关系自动提取的研究方法。空间数据既可以是点、线、面等空间实体数据,又可以是具有地理位置和属性特征的空间对象,数据类型繁多,使得单一的空间数据挖掘技术难以满足实际应用需求。并且数据量庞大,使得空间数据挖掘极为耗时,不能有效地满足其时效性需求。常见的空间数据挖掘技术包括统计分析方法、聚类分析方法、空间分析方法、计算几何方法等。计算几何中的Voronoi图方法能较好地表达空间实体的邻近关系,可以处理点、线、面等空间实体数据挖掘问题。而目前线、面等复杂实体目标的加权Voronoi图研究较少且效率较低,因此针对面元目标的加权Voronoi图研究具有重要价值。空间聚类方法是常用的空间数据挖掘技术,尤其是K-Means空间聚类方法,能够处理具有地理位置和属性特征的空间对象。但随着信息化社会的发展,空间数据呈爆炸式的增长,而串行算法计算效率不高,难以处理海量空间数据。鉴于Hadoop在处理大规模海量数据上的优势,本文对面元加权Voronoi图和K-Means空间聚类算法进行了MapReduce并行化设计,主要的工作成果总结如下:(1)对Hadoop相关技术进行了阐述,分析了分布式文件系统HDFS的工作机制和MapReduce的执行流程,为后续算法设计提供了理论依据。(2)针对具有较为复杂拓扑结构的面状空间数据,结合面元边界提取思想,改进了面元加权Voronoi图算法,并在Hadoop平台上实现了其并行化。并利用面元加权Voronoi图来解决空间数据挖掘中的空间目标影响范围界定问题。(3)针对具有地理位置和属性特征双重含义的空间数据,设计实现了基于Hadoop的K-Means空间聚类的并行化算法,并以新浪微博用户数据为例进行用户聚类,验证了算法的有效性和可行性。实现了基于Google Map的聚类可视化。