云环境下空间大数据连接查询处理算法的研究与实现

被引量 : 2次 | 上传用户:a956280507
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着对地观测技术和位置服务技术的快速发展,空间数据规模急剧增加,己成为大空间数据,如何利用云计算对这类数据进行高效的空间连接查询处理,是当前空间数据管理领域的研究热点之一。现有的基于MapReduce的空间连接查询处理算法,如PPBSM等存在过滤能力弱、数据过度复制等问题,并且计算后还需要进行重复避免,这样带来了额外的CPU和I/O代价。为此,本文针对空间连接查询存在的问题,进行了深入研究,主要做了以下几方面的工作。首先,针对现有MapReduce空间连接查询处理算法存在的过度复制等问题,提出了两种空间连接查询优化算法,即基于过滤的空间连接查询优化算法(FBSJ)和基于网格扩充的空间连接优化算法(GEBSJ)。FBSJ算法利用经过收缩的内部网格的MBR过滤掉部分无用的跨分区单元对象,降低了Reduce阶段的计算代价。GEBSJ算法采用基于R-tree的网格索引来过滤无用连接对象,并减少连接对象的多余复制。该算法利用一类数据预处理扩充原始网格并构建网格索引,另外一类数据搜索网格索引进行数据复制,这样会降低数据的复制量同时无需重复避免,分别从CPU和I/O角度优化了算法。其次,提出了一种改进的基于分布式R*树索引的空间连接查询处理算法。本文引入分布式R*树并对其进行了改进,首先按照Hilbert空间填充曲线编码使得空间区域数据实现均匀划分,并在每个分区中构建局部R*树索引,然后利用这些分布式R*树索引构建一个全局索引信息文件。在进行连接计算时,如果两类数据集都存在索引,则利用全局索引信息文件生成任务队列,然后执行基于R*树的连接查询处理;如果只有一类数据集存在索引,则充分利用该索引信息将无索引数据复制分配到各个子索引所在的Reducer任务上并行构建索引,然后再执行基于R*树的连接查询处理。由于分布式索引的存在,相对于处理无索引数据的PPBSM算法,查询性能最高能提升38.5%。最后,通过实际数据集和合成数据集上的大量实验,对本文所提出的两类空间连接查询处理算法进行了测试分析。实验结果表明,本文所提出的两种无数据索引空间连接查询优化算法的性能要明显优于PPBSM算法;而采用分布式索引的空间连接查询处理算法能够大大加快空间连接查询处理速度,具有良好的性能和适应性。
其他文献
针对事业单位养老保险制度改革的重大现实问题,以相关理论与文献综述为基础,选取西安市教育、科技、文化、行政监管、公益服务等事业单位工作人员为研究样本,采用分层整群随
数字电影的出现,对传统的版权保护带来了巨大的冲击。在我国数字电影版权保护实践中,出现了盗版严重、法律保护不足、版权维护机构不健全、版权保护意识不足等问题。为解决上
目的:观察壳聚糖中药药膜合用中药五谷虫粉对糖尿病足溃疡合并感染的临床疗效。方法:将60例因糖尿病足溃疡入院,血糖控制良好的患者,随机分为3组,每组各20例,在控制血糖和常
作为多个世界级文学奖项的获得者,多丽丝·莱辛在其多年的创作生涯中饱含了对人类社会发展及生存现状的关注,莱辛的几部经典作品,阐明莱辛的世界观和生态女性主义意识,揭示其
通过对我国纺织品贸易在后配额时代的发展状况和存在问题的分析,提出加快纺织产业结构调整;整合大型企业集团提高对外竞争力;发展对外投资,参与国际分工;发挥行业协会作用,加
<正>奥地利作家斯·茨威格(1881—1942),是一位善于表现人物精神世界的心理描写艺术大师,他尤其擅长描绘处于无意识激情中的女性心理.本文试从其《保守不住的秘密》、《恐惧
要使检察干警用发展的观点、前瞻的眼光审视检察工作,实践检察工作,立检为公、执法为民。因此,加强队伍建设是提高检察干警执法能力的基础,加强政治素养是提高检察干警执法能
对我国县域体育场地的发展状况进行了考察,认为目前体育场地量少质差、体育场地建设资金投入不足、经营管理水平有待提高、体育场地结构布局需进一步完善。提出了我国县域体
对构建中国多校区大学网络组织结构的立论基础进行分析,提出中国多校区大学由传统层级结构向网络组织结构转型的路径:加快现代信息技术的发展和应用,建立数字化校园;树立以人