论文部分内容阅读
在实际地震资料的处理时,影响数据处理效率的因素有很多,从整体上说,影响地震数据处理效率主要分为软件和硬件两个方面,也就是访问方法和访问环境的配置。但是由于访问方法的不断开发优化和服务器存储访问环境的更新需求造成了巨大的经费开销的同时访问方法的优化也越来越困难。为了解决访问方法优化开发的瓶颈和存储服务器更新代价两方面问题,本文通过对地震数据存储特性的研究,基于Hadoop对当前大数据存储访问技术,提出基于Hadoop的地震数据分布式存储策略,并通过该存储策略优化地震数据的存储访问环境,提高设备利用率。本文具体研究内容如下:1.Hadoop的地震数据分布式存储适应性研究;对Hadoop分布式框架的数据存储结构与地震数据的数据结构、访问特性等方面进行适应性研究,同时对地震数据分布式存储所需要考虑的组织结构、集群配置因素进行考量。通过Hadoop的数据访问方法与地震数据访问方法的有效结合,以廉价集群为前提,提出地震数据分布式存储策略的整体框架。2.地震数据分布式存储的组织策略;根据Hadoop集群环境的特性,对地震数据的分块大小、数据块分配、数据完整性进行组织,组织之后对环境参数合理配置,使之更高效的存储在Hadoop的分布式文件系统中。并通过实验来验证最符合于地震数据特性的环境参数配置及最优的数据组织策略。3.基于Hadoop的地震数据存取模块的设计;为了进一步验证Hadoop对地震数据的分布式计算的优势,本文将通过对Hadoop编程框架MapReduce和目前地震数据存取模块同时进行开发,并将两种环境下的存取模块进行对比,通过改变相应的环境参数来验证Hadoop地震数据分布式存储的高效性,并得出分布式节点个数和数据大小的不同对数据访问效率的影响。最后综合本文的研究内容,实现其各个优化技术,提出完整的地震数据分布式存储策略。以此来验证本文提出的相关优化技术和方法的可行性和有效性。