基于HBase的空间数据分布式存储和并行查询算法研究

被引量 : 35次 | 上传用户:cycblb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会和网络技术的发展,网络数据量急速增长,无论是个人还是企业,都面临着如何高效地存储和处理大数据的问题。Hadoop是由Apache基金会组织开发的一个开源的分布式大数据处理平台,它具有易扩展、高容错、可靠、高效、经济等特点,成为近几年应用最广泛的开源大数据处理平台。HBase使用Hadoop的分布式文件系统HDFS作为底层存储,是一个分布式,按列存储的数据库。它适合于存储大数据,支持单条记录的快速查询,在任意指定位置单条或批量添加、删除数据,并且支持MapReduce框架做分布式计算操作。目前越来越多的科研和商业单位都在应用Hadoop和HBase,并取得了一定的成果。本论文对基于HBase的空间数据存储以及基于MapReduce并行化空间数据查询算法作了一些比较深入的研究。本文的主要创新点如下:1.空间数据处理的基本单元是二维或三维坐标,HBase只支持一维行键检索。行键的设计是HBase存储和处理空间数据首要解决的问题。不同于Hilbert、Geohash等降维方法,本文提出了一种新的行键设计方法,将坐标数据转化为一维字符串。在行键设计的基础上,本文设计了一种新的适合存储空间数据的HBase表模式。2.提出了Shapefile格式的空间数据导入]HBase的算法InsertDataToHBase,算法中应用了GeoTools工具读取Shapefile格式的空间数据。3.设计了一种适合空间数据处理的HBase系统架构,该架构将GeoTools工具添加到客户端和MapReduce框架中。4.提出了面向HBase的空间数据区域查询算法:窗口区域查询算法LoWindowQuery、MRWindowQuery和多边形区域查询算法LoMuliPoQuery、 MRMuliPoQuery。5.提出了面向HBase的K近邻查询算法:面向点的K近邻查询算法PointKNN和基于索引表的K近邻查询算法IndexKNN。在IndexKNN方法中,基于查询热点并行化构建了索引表;使用索引表快速查找到K近邻对象,降低了查询时间,提高了查询效率。实验结果表明,提出的算法对空间数据查询是有效的。
其他文献
成功理财造就幸福一生,如何理财,这是摆在我们每个家庭、每个人面前的一大课题。笔者认为起码应该制订以下八大计划:职业计划。职业是收入的主要来源,在制订个人理财计划时,
以直流断路器瞬动式磁脱扣器为研究对象,通过电磁建模分析,获得了其静态特性随气隙长度的变化规律。在此基础上,结合铁心运动过程进一步计算获得其动态特性,为瞬动式磁脱扣器
1免耕播种技术的由来随着我国农业现代化进程的不断推进,传统耕种方式的种种弊端越来越显示出来:一是劳动强度大、能耗高.面积为1m2、深度为30cm的土壤重约4000t,要对这些土
环境司法专门化旨在从司法程序上解决环境问题,促进审判的专业化。但是由于我国环境司法专门化起步较晚,相应的制度和程序建设相对落后,使其难以发挥应有的价值和功能。文章
研究背景:腹泻病是导致全球儿童发病和死亡的主要病因之一,在低收入国家每年约有2百万儿童因腹泻而死亡。引起感染性腹泻的病原体主要为细菌、病毒和寄生虫等,随着抗生素的应
非刑罚处罚措施也被称为非刑事处理方法或免于刑事处罚措施,学界关于我国《刑法》中非刑罚处罚措施的种类界定存在很大分歧,在对《刑法》章节名称推敲的基础上不难得出,非刑
通过分析医疗机构中药制剂配制工艺研究存在的不足,并选择医院制剂常用的两种剂型(颗粒剂、贴膏剂)来分别介绍其配制工艺研究过程,从而在技术层面为促使医疗机构中药制剂进入
目的:分析肝衰竭患者实施叙事护理干预对其焦虑抑郁情绪的影响;方法:纳入我院2017年1月至2018年10月收治的肝衰竭住院患者共60例为研究对象,以住院号采取数字表简单随机分组
目的:探讨美宝湿润烧伤膏(MEBO)对汗疱疹治疗的影响。方法:对2004年9月~2006年6月期间收治的90例汗疱疹患者,根据创面所接受的治疗方法分为两组治疗,实验组(n=47)采用MEBO联合微波治疗
背景临床路径是一种融合多学科知识和技术并将整体医疗、护理、综合、深化的工作模式,也是目前医疗规范化管理中应用较为广泛的质量效益型医疗管理模式。临床路径模式起源于2