基于Hadoop/Hive技术的云GeoSQL的设计与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xuhuohua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着地理空间信息服务的普及和IT技术的进步,空间数据总量越来越庞大。日益发展的空间信息产业对空间数据管理技术提出新的挑战。具有信息处理高效、使用成本低、系统构建速度快、易扩展、高可用等优势和能把大量网络计算资源统一管理和调度、按需服务等特性的云计算将在空间数据管理领域提供新的技术支持。  SQL语言和支持并行处理的关系型数据库依然是数据管理软件应用的主流,如何整合云计算与关系型数据库的优势成为目前研究的热点,HadoopDB项目就是耶鲁大学的研究团队为了提高Hadoop对结构化数据的处理能力,提高分析负载的性能而做的将MapReduce计算模型与RDBMS结合的混合技术。对于空间关系型数据库与云计算的整合来说,单纯的空间查询语言GeoSQL已不能完全适应云计算的需求。  在此背景下本文做了以下工作:  1)首次提出云GeoSQL语言概念,科学定义云GeoSQL语言、设计构成语法,阐述云GeoSQL解释执行过程。验证了基于Hadoop/Hive技术的云GeoSQL查询语言的可行性,满足了目前空间数据在云计算平台查询的需要,对于GeoSQL语言在云计算领域的推广做了初步探索,具有很强的应用价值。  2)提出BeyonDB Cloud架构,元数据目录、数据连接器、SMS规划器等组件具有低耦合、高内聚特点,功能划分合理。该架构能充分展现云GeoSQL的解释执行过程,从而验证云GeoSQL语言的可行性。  3)实验验证当前BeyonDB Cloud架构只适合批处理数据,不能用作实时查询。特别适合处理大数据和聚集函数,不适宜小规模数据量查询,在推广使用BeyonDB Cloud架构时要充分估算查询数据量,建议选用TB级数据和至少2位数的节点服务器数量。  4)通过扩展UDF初步实现的云GeoSQL语言的几个基本查询功能将提供在Hadoop平台访问PB级空间数据的能力。这些函数算子具有很强的代表性,除了涉及到多个表之间关联的Join算子外,它们涵盖了按功能和位置分类的空间谓词、空间操作符和空间函数所有类型,覆盖了按参数数目区分的一元算子和二元算子全部类型。  5)深层次修改Hive逻辑计划生成器、增加解析生成子GeoSQL语句功能,实现谓词下推、空间标量函数选择性下推功能。实验证明标量函数下推并不是都能起到查询优化的作用。只有当要访问的数据量不大时,下推才能启到优化查询的目的,当数据量较大时,反而降低了性能。  6)实验结果证明云GeoSQL能有效提高空间数据分布式并行处理效率,同时,BeyonDBCloud突破了分布式数据库结点个数限制的瓶颈,验证了当单一结点的服务器发生故障时并不会导致查询失败。  最后分析影响Hadoop云平台查询空间关系数据库性能的可能因素,为以后研究和完善云GeoSQL提供参考。
其他文献
互联网社会化浪潮的典型代表——社交媒体,在旅游业发展中起着越来越重要的作用。微博所具有的较大用户规模和社交媒体的特点,使其正逐渐成为互联网主要信息源之一,也成为了游客
学位
学位
1切块催芽播种前20天,时间约在2月下旬开始催芽。土豆种切块时,每个种块要有1~2个芽眼,10~15块/500克为宜。切好后用小灰干拌或多菌灵粉剂1:200倍对水浸种进行杀菌消毒。待种块
“你看世界的方式太过狭隘,你一生都在努力寻找突破,你的工作救人无数。如果我告诉你,现在只是冰山一角?”——《奇异博士》关于互联网金融,从最初的互联网金融,到科技金融,
岷江上游地域辽阔,自然资源丰富,经济上是阿坝藏族羌族自治州的精华所在,天府之国的生命源泉.但该区自然条件复杂,生态环境比较脆弱.随着人口的增长和生产的发展,对资源的需
学位
首家自营店的诞生:一个人,一个市场说起长沙卷烟厂BTT的超级自营店,不得不先从首家自营店店主周玲说起。一个政工工作者,怎么会当上店主的呢。事情要回溯到今年年初,“天天向