云环境中海量空间数据处理关键技术研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:sheng198208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传感器技术飞速发展直接导致万物联网时代的到来,对所获取海量时空和遥感数据快速有效地处理和分析是以智慧城市和数字地球为代表典型应用所关注的核心问题。体积巨大且异构多样化高时空分辨率遥感影像是探索全球大气、土壤以及水循环变化的关键。结合快速产生的地理空间数据,使得集成地研究人类活动对这些要素影响成为现实。为了满足处理和分析的高资源需求,廉价地获得实时或近实时的处理结果,越来越多研究开始关注结合云虚拟化的高性能并行计算技术对海量空间数据进行处理。面向大规模空间数据处理时,运行时可扩展的空间数据处理算法以及有效且通用的并行处理模型都是必须的。尽管可扩展性极好的MapReduce并行处理模型能以较高性能在廉价的集群环境中快速有效地处理大规模空间数据,但是该模型存在对迭代算法支持不足的缺陷。强调基于数据位置的计算本身会带来“倾斜”处理危险,使得集群计算任务会聚集在处理能力差的计算节点上。此外,云主机性能受底层虚拟化技术影响,使得MapReduce不能适应实时时空数据分析需求。而近年来,以Spark框架为代表的内存计算模型以其低延时、高容错性和高吞吐等特点,在海量时空数据处理中得到越来越广泛应用。本文从并行处理模型、算法实现、以及底层框架优化这三方面对云环境中实时空间数据处理关键性和挑战性问题展开研究。尽管Spark在最近几年被广泛使用,将其成功应用于实时海量空间数据处理和分析的场景并不多见。这主要是因为粗糙粒度的数据并行模式要求合理的数据划分以适应计算单元异构性。针对海量空间数据处理算法需自适应底层资源的动态变化。Spark核心调度和中间结果管理机制不考虑计算节点异构性及任务负载均衡问题。此外,Spark并行框架并不支持针对空间分析所必须的空间谓词计算操作。云环境中资源管理复杂,智能化的计算和存储资源供给又要求对基础架构即服务层(IaaS)以及平台即服务层(PaaS)资源管理和使用策略有深入理解,这就增加了空间数据分析人员的学习成本。本文围绕这些关键问题展开论述,提出一系列具有创新性的解决思路及方法,主要的贡献如下:(1)本文对大规模空间数据分析模型和方法进行总结和提炼,并针对集成处理和分析海量遥感数据方法缺失的当前现状,提出了一种面向条带的并行计算模式。通过融合条带抽象和Spark分布式数据集,使得复杂遥感影像并行算法可以通过简单的结合了广播变量的并行转换原语实现。此外,针对Hadoop集群联合需求,提出了一种通用的遥感影像划分方法,使得算法能自适应异构Hadoop集群。(2)本文对Spark核心调度机制以及中间结果管理方法展开研究,针对大规模遥感影像并行处理效率主要受制于并行计算任务“倾斜”处理产生的延时,提出了一种基于对等网络(P2P)协议的中间结果管理模型。实现了 Spark核心在调度任务时能够智能感知Spark执行器所在计算节点的负载和网络传输延时的功能。实验结果表明,采用该存储模型的Spark内存计算框架,对于连接密集型遥感算法效率提高20.1%至36.3%,对于迭代密集型的遥感算法的效率提高20.7%至32%。(3)除了约束的并行编程模型以及自适应底层资源变化的并行计算框架之外,结合云环境弹性资源供给模型是实现约束时间下的海量地理空间数据实时处理的关键。为此,本文提出了一种弹性地理空间处理框架,并给出弹性空间查询处理方法以支持应急条件下的海量空间数据分析需求。首先,为符合主从设计的Spark调度器和执行器,分配具有自愈能力的容器资源。接着利用PaaS层容器编排工具,智能地为容器安排计算资源,最后再利用IaaS层自动虚拟机扩展插件,动态回收和扩充虚拟机实例。实验结果表明,结合弹性化容器资源供给以及虚拟机自扩展能力的空间处理算法能在约束时间内完成。通过供给较少容器以及适中的Spark执行器可用内核,可以尽量减少因容器相互竞争产生的调度延时。自扩展容器而不是自扩展虚拟机实例减少了 Spark执行器丢失以及虚拟机实例性能变化造成的算法效率不确定性。(4)本文设计和实现了云环境中集成处理和深度学习框架ElasticSpark,并探讨了主流深度学习框架的缺陷。通过对比分析,使用虚拟化容器组成的Spark计算集群,相对于YARN集群,深度神经网络训练更为稳定和高效。此外,采用Kademlia缓存优化的Spark框架,深度学习算法的效率可以得到进一步提升。两层虚拟化并没有带来严重性能下降,是因为Kubernetes提供的覆盖网能够使容器间通信稳定和高效进行。通过结合云容器虚拟化技术和光学遥感反演全国耕地土壤含水量,本文实现了高精度和高效反演土壤水的业务化运行模型。该模型直接以VIIRS 一级产品中的9个反射波段,和3个热散射波段,以及实测土壤数据作为输入。模型验证的结果证明,实测和通过模型预测土壤水含量具有高度一致性。当隐含层为8层,神经元数为500时,模型达到最优化。
其他文献
目的总结先天性心脏病-完全性大动脉转位合并室间隔缺损及左室流出道梗阻应用双根部调转的治疗效果。方法自2013年5月至2015年3月连续收治6例完全性大动脉转位合并左室流出道
在粮食产量"十二连增"情况下,中国粮食自给率不升反降,这是由于统计方法不当和超额储备造成的。从总供给和总需求关系分析,当前中国粮食供给是历史上最充裕时期,安全状况也处
第一部分 阿尔茨海默病静息态脑血流的改变及其与认知功能的关系研究目的:比较阿尔茨海默病(Alzheimer’s Disease,AD)、轻度认知障碍(Mild Cognitive Impairment,MCI)和健康
一、概述财务困境预警研究始于20世纪60年代,经过半个世纪的发展,学者们对财务困境预警的研究已经形成了一些有效的方法。在我国财务困境预警研究始于20世纪90年代,近几年的
人工油松撒播造林的成败与自然立地因子有直接关系,其中:坡向、土层厚度、植被生长状况及降雨量是影响撒播造林的主要因素。掌握和了解自然因子,采取相应的对策,撒播造林才会
建立了计算抛落式工作磨机内钢球离心力的理论公式 .该理论公式可定量地计算在不同充填率和转速率条件下 ,离心力的大小、方向及其变化规律 ,具有理论意义和实际应用价值 .
强流重离子加速器装置(High Intensity Heavy-ion Accelerator Facility,HIAF)是由中国科学院近代物理研究所提出的“十二五”国家重大科学工程项目之一。加速器装置的束流质
通过对《故事新编》中"油滑"现象的分类探讨《故事新编》的体裁定性问题。对《故事新编》中存在的两种"油滑"进行了阐释,分析两者各自的成因及优劣;在此基础上,具体分析《故事新
随着经济社会不断发展,基层政府综合实力不断增强,并逐渐形成一批经济发达镇。但由于这些经济发达镇现行所拥有的职、责、权与其发展前景并不匹配,需要通过行政管理体制改革
受地震、暴雨的影响,破碎的山体易发生滑坡、泥石流等,在河流岸边形成堆积体,改变了河道水流边界条件,引起堆积体附近的河道冲淤变化。通过动床水槽试验,结合前期堆积体定床