论文部分内容阅读
在信息化深入应用发展的大数据时代,对迅速膨胀的海量数据和信息的管理与利用成为影响前沿技术与科学研究发展的重要因素。大数据的存储与处理是大数据应用中的核心问题。本文主要研究在异地多数据中心环境下,海量科研数据的分布式存储与处理中的关键技术。
为实现海量科研数据的长期有效存储、异地容灾、降低数据存储成本和针对海量数据处理应用的存储优化,本文提出一种存储设备多样化、基于广域网链接的多数据中心环境下的数据布局策略,统筹使用多数据中心的存储、处理与网络资源。以该数据布局策略为基础,设计了一个多数据中心的全局统一分布式存储文件系统并进行了初步实现。元数据管理是分布式存储系统设计的核心,由于数据中心内部的节点呈现集群的特性,而数据中心之间通过广域网连接,本文引入了元数据自治域的模型以实现跨数据中心的分布式存储系统元数据统一管理。每个数据中心建立并维护自己的元数据自治域,该元数据自治域包含全局文件系统元数据的全部信息,完成本数据中心内部的元数据请求服务,各个元数据自治域之间进行元数据信息的实时同步。通过对比、分析现有的广域网分布式与集群文件系统,详细讨论并深入研究了元数据自治域内的元数据分布式管理的高可用、高性能与负载均衡问题,并提出了一种可通过设置元数据副本数量权衡控制元数据管理灵活性、一致性与性能的方案,对元数据自治域中的名字空间目录树进行拆分管理。
为实现数据在多数据中心的高效分布式处理,本文结合数据的布局策略与分布式存储系统,提出了并详细讨论了海量数据在多数据中心的处理策略。基于该分布式存储与处理系统,本文进行了大规模遥感图像数据、海量视频监控数据与GPS记录数据的存储与处理等应用的实施测试,并结合HDFS、MooseFS等分布式文件系统进行了效率比较,结果验证了该方案的性能优势。针对在异地多数据中心间进行实验与测试中遇到的具体问题,本文也讨论了广域网络连接的多数据中心环境中,系统资源的快速部署设置、网络架构、统一监控管理等一些具体技术问题,提出解决方案并进行初步实现。