多数据中心环境下海量数据存储与处理关键技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:dafsgdfgd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息化深入应用发展的大数据时代,对迅速膨胀的海量数据和信息的管理与利用成为影响前沿技术与科学研究发展的重要因素。大数据的存储与处理是大数据应用中的核心问题。本文主要研究在异地多数据中心环境下,海量科研数据的分布式存储与处理中的关键技术。   为实现海量科研数据的长期有效存储、异地容灾、降低数据存储成本和针对海量数据处理应用的存储优化,本文提出一种存储设备多样化、基于广域网链接的多数据中心环境下的数据布局策略,统筹使用多数据中心的存储、处理与网络资源。以该数据布局策略为基础,设计了一个多数据中心的全局统一分布式存储文件系统并进行了初步实现。元数据管理是分布式存储系统设计的核心,由于数据中心内部的节点呈现集群的特性,而数据中心之间通过广域网连接,本文引入了元数据自治域的模型以实现跨数据中心的分布式存储系统元数据统一管理。每个数据中心建立并维护自己的元数据自治域,该元数据自治域包含全局文件系统元数据的全部信息,完成本数据中心内部的元数据请求服务,各个元数据自治域之间进行元数据信息的实时同步。通过对比、分析现有的广域网分布式与集群文件系统,详细讨论并深入研究了元数据自治域内的元数据分布式管理的高可用、高性能与负载均衡问题,并提出了一种可通过设置元数据副本数量权衡控制元数据管理灵活性、一致性与性能的方案,对元数据自治域中的名字空间目录树进行拆分管理。   为实现数据在多数据中心的高效分布式处理,本文结合数据的布局策略与分布式存储系统,提出了并详细讨论了海量数据在多数据中心的处理策略。基于该分布式存储与处理系统,本文进行了大规模遥感图像数据、海量视频监控数据与GPS记录数据的存储与处理等应用的实施测试,并结合HDFS、MooseFS等分布式文件系统进行了效率比较,结果验证了该方案的性能优势。针对在异地多数据中心间进行实验与测试中遇到的具体问题,本文也讨论了广域网络连接的多数据中心环境中,系统资源的快速部署设置、网络架构、统一监控管理等一些具体技术问题,提出解决方案并进行初步实现。
其他文献
随着大数据和云计算的发展,分布式文件系统在众多的存储系统中扮演着越来越重要的角色。与此同时,数据仓库也经历了概念的提出、理论的逐步完善、初步建立仓库,到现在发展成熟等
显式语义分析技术ESA,通过对知识库(如Wikipedia)的处理,构造出各个词到每个概念的倒排索引,并且计算出词到每个概念的权值,表示词与概念的相关度。因此,这个倒排索引可以看作是由词
动态二进制翻译系统中,动态优化技术能根据程序运行时的行为实时地调整代码优化策略,提高程序性能。在传统的系统设计中,代码的优化和代码的执行在同一个进程中分时进行,因此
针对大多现有软件无法通过修改编译后的二进制代码来实现通信保护的问题,提出一种基于LSP通用的保密通信模型。通过分析分层服务提供者(LayeredService Provider,缩写LSP)的实
候鸟迁徙卫星跟踪系统的成功应用,使得青海湖地区鸟类积累的卫星跟踪数据量越来越大。为了准确的获取对青海湖鸟类数据的认知,探究数据背后的知识,本文设计了多个新颖、充实的可
随着网络应用和技术的快速发展、网络规模的不断扩大,网络测量和监控是监控网络状态保证网络正常运行的必要手段,同时网络测量技术也是学习和研究网络行为模式,为改进网络协议、
近年来,随着公众对信息安全重视程度的逐渐加深,传统的基于PC或服务器平台的人脸识别系统己无法满足人们对便携性和易用性的需求。局限于人脸识别系统对计算能力与存储容量的
随着互联网规模的增大,网络的普及,以及最近社交网络的兴起和突发新闻事件的迅速传播等趋势,网民不仅对检索系统的全面性,还对检索系统的时效性都提出了更高的要求。因此,在
学位
近年来互联网高速发展,已经逐渐成为人们获取信息的主要来源,互联网信息总量大并呈爆炸性增长,对这些信息的存储给互联网公司提出了新的挑战。为了应对互联网中海量数据存储