论文部分内容阅读
近年来,大数据、云计算等新兴技术快速发展,在电子商务、教育、医疗、交通等领域已经得到广泛的应用。云计算能够给用户提供可靠的、自定义的、最大化资源利用的服务,具有安全的数据存储、方便快捷的互联网服务和强大的计算能力等特点。目前,我国正在大力发展海洋事业,随着海洋探测技术的不断完善和优化,海洋数据表现出了海量化、复杂性、多样化等特征,给数据管理、利用和海洋知识挖掘等带来巨大的挑战。本论文研究了基于Hadoop和Spark的云计算技术,设计了一种针对物理海洋数据的云存储和处理方案,并将这一方案应用在数据的统计分析中。相比传统的文件服务器处理模式在配置成本高、处理效率较低、编程模型复杂等方面的不足,基于Hadoop和Spark的云计算技术在分布式数据存储和并行计算方面有明显的优势。针对海洋大数据的分布式存储,本论文采用HDFS作为底层存储框架,并对HDFS的整体架构以及数据如何写入、分块、备份和恢复进行了深入研究,并与本地文件系统做了对比;针对海洋大数据的分析处理,本论文采用Spark和Yarn相结合的方式进行并行框架设计,并基于RDD构建NetCDF分布式数据集,通过重写数据读取接口对大范围的物理海洋数据进行并行处理。本论文研究设计了 Yarn集群模式下的系统性能调优方案,对HDFS数据块大小、Spark应用程序提交参数和Yarn资源分配参数进行了调优设置。最后,本论文总结了 Hadoop集群和Spark集群的环境搭建步骤,并对渤黄东海区域40年的海浪数据做了查询统计效率对比试验,试验证明相较于单机模式,云计算模式在大量数据处理方面具有较高的效率。本论文将基于Hadoop和Spark的云计算技术应用于有效波高-跨零周期散布图统计分析中。散布图统计利用传统定义实现了有效波高-跨零周期联合分布统计,并分析了有效波高在季节和地理位置方面的变化规律;其次分别利用极值工型分布函数(参数方法是耿贝尔法)和Ochi提出的波高周期联合分布函数相关理论进行了不同重现期下有效波高极值和周期期望值的推算。