论文部分内容阅读
随着社会和网络技术的发展,网络数据量急速增长,无论是个人还是企业,都面临着如何高效地存储和处理大数据的问题。Hadoop是由Apache基金会组织开发的一个开源的分布式大数据处理平台,它具有易扩展、高容错、可靠、高效、经济等特点,成为近几年应用最广泛的开源大数据处理平台。HBase使用Hadoop的分布式文件系统HDFS作为底层存储,是一个分布式,按列存储的数据库。它适合于存储大数据,支持单条记录的快速查询,在任意指定位置单条或批量添加、删除数据,并且支持MapReduce框架做分布式计算操作。目前越来越多的科研和商业单位都在应用Hadoop和HBase,并取得了一定的成果。本论文对基于HBase的空间数据存储以及基于MapReduce并行化空间数据查询算法作了一些比较深入的研究。本文的主要创新点如下:1.空间数据处理的基本单元是二维或三维坐标,HBase只支持一维行键检索。行键的设计是HBase存储和处理空间数据首要解决的问题。不同于Hilbert、Geohash等降维方法,本文提出了一种新的行键设计方法,将坐标数据转化为一维字符串。在行键设计的基础上,本文设计了一种新的适合存储空间数据的HBase表模式。2.提出了Shapefile格式的空间数据导入]HBase的算法InsertDataToHBase,算法中应用了GeoTools工具读取Shapefile格式的空间数据。3.设计了一种适合空间数据处理的HBase系统架构,该架构将GeoTools工具添加到客户端和MapReduce框架中。4.提出了面向HBase的空间数据区域查询算法:窗口区域查询算法LoWindowQuery、MRWindowQuery和多边形区域查询算法LoMuliPoQuery、 MRMuliPoQuery。5.提出了面向HBase的K近邻查询算法:面向点的K近邻查询算法PointKNN和基于索引表的K近邻查询算法IndexKNN。在IndexKNN方法中,基于查询热点并行化构建了索引表;使用索引表快速查找到K近邻对象,降低了查询时间,提高了查询效率。实验结果表明,提出的算法对空间数据查询是有效的。