基于SPARK/SHARK优化数据库实时空间数据分析——以kNN算法为例

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:chrisdc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着海量空间数据的不断膨胀以及地理信息系统应用的愈加广泛,云GIS的发展成为时代的必然。如何更好的应对挑战,即,如何在云计算的环境下优化空间数据的分析查询是一个亟待解决的重要问题。空间数据库经过多年的发展,目前已有一些优秀的产品如Oracle Spatial、BeyonDB等。它们的优势是能高效地进行属性数据与空间数据一体化管理,具有空间索引等数据库的特性。同时,随着技术的发展,分布式空间数据处理平台也不断出现,如Hadoop GIS、MRGIS等。为在云计算环境下优化空间数据管理,实现分布式空间计算的目标,人们开始考虑将数据库对空间数据的高效管理与分布式计算框架对复杂计算的并行快速反应进行结合,即将空间数据计算的各家优势集合在一起。  本研究提出一种在分布式计算引擎(Shark/Spark)中集合之关键技术(包括数据映射、数据加载、数据备份及空间查询等),将空间数据库对空间数据的高效存储、索引及查询优势与分布式计算引擎对复杂计算的优势相结合,实现一种基于Shark/Spark的分布式空间数据分析框架,通过实现空间计算函数,探索分布式环境下基于Shark/Spark计算框架的进行复杂空间分析的解决方案。  在具体实现中,通过空间自定义函数和空间函数下推2种方式实现空间数据分析框架;并通过在Spark中集成Shark,实现基于空间索引的kNN的空间计算。实践表明,采用分布式框架Shark/Spark与SDBMS结合的方式处理空间查询与分析是可行的,通过实验对比结果可看出:(1)对于影响返回结果数据量的空间查询适合下推给SDBMS完成,而不影响返回结果数据量的空间查询,利用分布式计算引擎直接运算更具有优势。(2)建立空间索引能有效提高空间数据的检索分析速度,无论是利用SDBMS自身的空间索引,或是在分布式框架中实现空间索引,都可有效提高SDBMS在分布式环境下处理复杂数据分析的能力。
其他文献
介绍了一种新型井下架线式电机车防追尾报警系统的原理与应用,采用LM1893在架空线上构建电力载波通信,利用趋肤效应对载波信号的衰减,实现对电机车安全距离的监测及报警,弥补
进一步解放思想,全面推进党的建设王长江市场经济条件下的党的建设,正面临一系列前所未有的新情况新问题。解决这些问题,必须进一步解放思想,开拓创新。什么是党建领域的进一步解
作为控制植被分布的关键气候因子,气温和降水决定着某地潜在的植被分布.黄土高原中的山地,由于地形的影响,水热条件得到明显改善,其植被条件也相应有明显的改善.但由于人类活
此唐褚遂良(596—658年)行楷《哀册》为明代勾摹本(图1)。《哀册》是褚遂良于649年为唐太宗文皇帝(627—649年)驾崩而作的,相传为真迹。最早出现于关于宋高宗(1127—1162年)
根据洪水发生时代和洪水记录辨识方法的不同,将洪水分为实测洪水、历史洪水、古洪水。古洪水是指依赖地质地貌标志辨识的发生于人类记载或现代水文测量之前的古代洪水。通过古
本研究基于全球气候变化及其对于区域水资源所产生的严重的影响,选取塔里木河流域典型山区,以径流的组分构成为主要研究对象,结合过去50年的气象和水文数据以及水样采集,应用同位
大数据时代,海量的数据驱动人类实现测量、记录和分析世界的理想。在这海量的数据中,地震勘探数据助力油气资源的探寻。随着地震勘探技术正向多维度、多参数、多分量、高分辨率
在连接商户与支付商的二维码支付的生态链上,存在很多商业机会。过去的三年里,微信和支付宝大力教育了C端用户和B端商户,用户很快接受了二维码这种简单方便的支付方式,越来越
随着工业化、城镇化的快速推进,土地利用格局发生剧烈的变化,土地利用/覆被变化研究受到关注。自IGBP和IHDP将土地利用/覆被变化作为全球变化研究的核心研究项目后,土地利用/覆
老编有曰:可以说,此番涨价或是一次典型的成本推动型的通胀,其中上游原材料商的涨价向中游传导是基本路径,再叠加人力成本、环保成本和研发成本的上涨,最终导致了成本的全面