论文部分内容阅读
物理海洋数据具有多维、时空和海量等特征,主要以NetCDF结构化文件格式进行存储。然而,在分布式环境中,结构化文件存在数据块寻址困难、边界不易判定等问题,制约着大数据场景下的存储及应用。论文设计基于HDFS+Spark的NetCDF物理海洋数据云存储方案,首先采用HDFS分布式存储技术存储和管理物理海洋数据;并设计基于Spark并行计算框架的数据分片方案,复写读取接口获取分布式环境下的NetCDF文件数据块地址,实现了物理海洋数据的高效率存储与查询分析。选取中国海域100 a时长的物理海洋数据进行波高-周