面向科学数据window操作的存储格式研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:panxihuanhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高斯滤波,即window操作,是一种适用于消除高斯噪声的线性平滑滤波,广泛应用于科学数据处理的减噪过程。在科学数据处理领域当中,需要通过过滤噪声来提取最有用的信息,所以滤波操作在科学数据处理的领域中发挥着重要作用。  然而,在科学数据处理中,高斯平滑操作往往非常耗时。虽然window操作在传统数据库中被广泛研究,但如何将window操作应用于分布式平台依然是一个重要的挑战。因此,本文在现有RCFile的基础上,针对科学数据window操作的特点提出了一种基于HDFS的高效存储格式CRCFile,并在Spark平台使用CRCFile作为存储格式实现了window操作。本文的主要贡献如下:  1)针对科学数据中的window操作,我们在RCfile的基础上,实现了一种存储格式CRCFile:将HDFS的每个block存入一部分有效数据和一部分相邻块的数据,以此来减少window操作时的跨块读取数据的开销。  2)为RCFile和CRCFile在window操作中的执行时间进行了理论分析,并针对科学数据window操作的特点,分析了窗口大小和冗余度对性能的影响。  3)对现有存储格式和提出的存储格式进行了实验评测。实验表明,本文提出的存储格式CRCFile在进行较大数据量、较大窗口的window操作时具有较高的执行速度。  综上所述,我们通过理论分析RCFile和CRCFile执行window操作的性能,并用大量实验证明CRCFile适合较大数据集、较大窗口场景下的window操作应用,例如高清遥感数据的平滑去噪等等。
其他文献
随着互联网技术的迅速发展,互联网上的信息量也呈指数倍增长。今天,网络已成了人们获取信息的主要途径之一。然而,网页没有统一的结构和管理,质量也就参差不齐,其中不乏一些
学位
管理信息系统是一个以计算机为工具,具有数据处理、预测、控制和辅助决策功能的信息系统。生产管理信息系统是管理信息系统的一部分,管理信息系统的开发过程,就是从问题提出、开
计算机层析成像(CT)被广泛的应用于疾病的诊断,成为医生进行病理和解剖研究的重要手段之一。如何利用CT断层数据进行三维重建,以提高医生的诊断效率,乃至直接为外科手术临床服务
随着计算机网络的应用深入到社会生活的各个领域,信息系统安全问题受到广泛关注。网络安全传统上一直倾向采取被动式防护策略,如数据加密技术、防火墙技术、访问控制技术、数
学位
随着技术的发展,在航天领域,软件在型号系统中得到了广泛的应用。软件失效会直接导致严重的事故甚至灾难。为提高软件的可靠性,对于软件测试而言,需尽可能多的发现软件中可能
呼叫中心(Call Center)作为一种利用现代通信手段和计算机技术来处理话务量的全新现代化服务方式,越来越被众多的企业重视。它的发展主要经历有三个阶段,从最初的人工热线系
初式是各大经典三角化零点分解算法中使用最为频繁的一个概念,是多个分解方案的基础出发点和主要工具,但是它缺少以分析的观点来看待零点分解问题。本文的主要内容是根据李永彬
粒子群优化(PSO)算法是由Kennedy和Eberhart于1995年提出的一种群智能优化算法。这种智能算法与遗传算法(Genetic Algorithm)类似,都是基于种群的随机算法,但他们的遗传机制不
互联网面临着扩展性、安全性与移动性等一系列严重的问题与挑战。为了解决这些问题,业界从未来网络体系结构、软件定义网络、网络功能虚拟化等角度展开了大量研究。试验验证是
随着计算机和网络技术的不断发展,文档一体化管理、协同办公等各类工作流信息化系统已广泛应用于各行业领域中。由于在应用信息化系统的过程中涉及到大量的电子文档,而电子文