论文部分内容阅读
随着技术的发展与信息数字化的推进,大量的数据需要被永久存储,而且存储的容量也呈指数上升。在海量数据的时代,如何有效存储大规模数据,并且提供常用接口是一个研究的热点。结构化数据发展多年,形成了大家都易于接受的接口和一系列标准,但是关系型数据其存储容量的限制使得它很难适应海量数据的需求。本文通过对分布式存储技术的分析研究,结合当前的主流存储相关的产品的设计思路与应用需求,提出了海量结构化数据存储的一套合理的解决方案,并且实现了一个结构化存储系统。系统利用分布式思想,将结构化数据分拆成很多分片,各个分片独立存储在不同的存储节点之上,充分利用各个节点的存储资源。论文的主要研究工作为以下几点:1、结构化存储系统的设计,利用分布式思想,将系统分别部署在多个节点之上,然后将对数据的操作分割成多个相互较为独立的子过程,然后由各个独立部署的服务节点完成相应的功能。2、系统元数据集群的设计实现。使用集群技术来存储海量的元数据信息,以满足整个系统的存储需求,利用Epoll非阻塞的通信技术提高系统的网络吞吐量,避免由于元数据集群的读写性能成为制约整个系统性能的瓶颈。同时实现集群内部的负载均衡调度,根据集群本身的特点,通过集中式的调度管理策略来实现整个集群内部的访问热点和存储的负载均衡。3、系统元数据集群的容错设计实现。为元数据集群设计副本冗余和双机热备冗余相结合的容错方案,其中对调度节点实现双机热备冗余的容错系统,对存储节点实现多副本控制的容错方案,提高集群的可靠性和健壮性。通过功能测试和压力测试的数据表明,整个结构化存储系统的功能完整,在压力情况之下,系统能够正常运行,且能够在较为合理的时延下完成大规模用户对系统的操作请求。