SparkArray：基于数组的科学数据管理系统

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：striveformonen

【摘要】

：

随着对大型科学数据的操作要求越来越高，科学家们需要灵活的集群软件来执行快速的科学数据分析。本文在Spark平台上针对不同的实现数组操作的方法，对算法进行分析和性能评估;并

【作者】

：

王文娟

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

科学数据管理系统分布式系统 Spark平台性能评估

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着对大型科学数据的操作要求越来越高，科学家们需要灵活的集群软件来执行快速的科学数据分析。本文在Spark平台上针对不同的实现数组操作的方法，对算法进行分析和性能评估;并提出SparkArray系统，基于科学数据数组模型，实现并优化了一系列常见的数组操作。本文创新点主要有:　　1.比较分析了independent、overlap和merge三种集群处理数组算法，在高斯滤波、集群提取等数组操作上分别实现三种算法。实验结果表明，independent算法的并行度最高，但网络传输量大，overlap方法可以在并行度和网络传输量两方面得到较好的权衡，性能最好。　　2.针对科学数组数据，提出一种新的Join算法——Filter Join。利用数组将坐标值作为Key的特点，在Join运算之前计算两数组重合部分的坐标范围，过滤掉不需要的值，只对需要的数据进行连接。Filter Join方法减少了数据传输量，但同时也增加了计算步骤。因此需要找到一个阈值，来判断是否需要进行Filter Join。实验结果表明，和传统广播Join、分区Join相比，在数组大小逐渐超过1w5*1w5或者数组覆盖率超过50％时，Filter Join性能最好。　　3.本文还用SparkArray实现了标准科学数据库的基准SS-DB，并与开源数据库管理系统SciDB比较。结果表明，在对数据进行快速加载或者一次性分析的情况下，SparkArray优势比较明显。实验表明，如果考虑查询的总执行时间，SparkArray在所有查询情况下都比SciDB快得多（快8倍到17倍）。

其他文献

基于组件的嵌入式系统开发与应用

随着嵌入式系统日益普及，基于嵌入式系统开发应用软件的需求越来越广泛，但是嵌入式系统资源(如CPU处理能力、内存容量、功耗等)有限，从而使在该系统上运行的应用软件的大小及运

学位

嵌入式系统MICOCORBAQORB中间件IDL组件技术个人信息管理软件

基于表示学习的新闻推荐关键技术研究与系统实现

信息技术和互联网的发展，深刻地影响了人们获取资讯的方式。人们的新闻消费模式已经从传统的订阅报纸，转变成了通过互联网访问成千上万的不同来源的新闻。互联网不仅加速了人们

学位

新闻推荐表示学习联合建模协同过滤

网络化制造集成及图案协同设计中的关键技术研究

轻纺产品图案的差异化和多样化是轻纺领域打造竞争优势的关键，因此图案的设计和制作在轻纺行业占据相当重要的地位。近年来，结合人工智能和图形图像技术的智能图案创作系统得到

学位

Web服务XML图案协同设计一致性维护冲突

一种基于RSL的协议形式化描述技术

协议是网络和通信的核心,协议形式化理论的研究是一项十分重要的基础性、前瞻性和创新性的研究.它主要包括协议形式化描述、协议验证、协议实现、协议测试等方面的理论和方法

学位

协议工程形式化描述技术RSL规范语言面向对象技术一致性测试

基于数据仓库的知识发现模式的研究

时间序列模式、分类规则和关联规则挖掘是当前数据挖掘研究中一个热点。本文对时间序列模式、分类规则和关联规则挖掘的方法进行了深入的研究。挖掘规则及其它知识是一个多阶

学位

数据挖掘数据仓库联机分析时间序列模式分类规则概念格关联规则

空间信息移动用户服务系统的关键技术及实现

随着空间信息管理技术的不断成熟和空间信息服务系统的逐步普及化，人们对随时、随地获取空间信息服务的需求越来越普遍也越来越迫切。与此同时，无线传输技术的更新换代和无线互

学位

移动通信空间信息定位服务分布式系统

基于ActiveX技术的蒙文编辑控件的设计和实现

组件技术是解决软件危机、提高软件开发效率和质量的有效途径,有助于软件工程化、工厂化生产的实现.组件技术的出现是对传统软件开发过程的一次重大变革.Internet的飞速发展,

学位

组件ActiveXActiveX控件蒙文编辑控件

融合用户反馈的语音转写结果快速纠错技术研究

近年来，受益于大数据和深度学习技术的发展，语音识别技术取得巨大进步，语音识别准确率大幅提高。但是受环境噪音、口音、语义等方面的限制，语音识别错误仍然难以避免，特别是在专业

学位

融合用户反馈语音转写快速纠错重估算法

一个基于DSP的电子阅读笔硬件系统

随着二十一世纪数字地球时代的来临，专用高速数字信息的处理技术成为发展的方向，在巨大的应用前景的驱动下，专门为高速数字信息处理而设计的数字信号处理器(DSP)成为数字化领域

学位

DSP电子阅读笔图像采集图像识别图像显示

混合绘制框架下的自适应实时光线跟踪算法研究

学位

SparkArray：基于数组的科学数据管理系统

与本文相关的学术论文