论文部分内容阅读
随着计算机和网络技术的发展和普及,人们对于计算和存储的需求越来越大,TB级别数据以及PB级别的数据需求已经越来越普遍。因此,基于计算机网络技术的分布式存储系统成为研究热点。分布式存储系统是将分布在不同区域的计算机通过网络进行互联并协同工作,以向用户提供海量数据存储功能的系统。分布式存储系统中的每个存储节点都是存储系统中的一部分,用户可以不用关心自己的文件具体存储在什么地方,而完全由分布式存储系统统一进行分发和调度。从大型互联网公司到金融和政府等对文件存储有较高要求的部门,到处都有分布式存储系统的应用,分布式存储系统的应用已经越来越广泛。 文件放置问题是分布式存储系统中的一个主要问题。存储系统的放置策略处理如何把用户的文件放在相应的存储节点上,以使得分布式存储系统具有较高的负载均衡性,良好的可扩展性,以及比较高的容错能力。分布式存储系统的放置策略相关的研究工作主要解决异构存储节点之间的容量负载均衡问题,但是对于异构的文件请求,即文件大小不同的情况,相关的研究工作并没有过多考虑,多副本之间的相关性也并没有综合考虑,没有一个合适的评价副本相关性的指标。而且随着网络应用的不断发展,分布式存储系统具有了新的特性,即文件本身具有更多的访问需求,例如音频视频文件需要存储节点提供较高的网络带宽和计算处理能力,文档文件需要存储节点提供较高的可靠性等等。这些新的特性对传统的分布式存储系统提出了更高的放置要求。 针对上述问题,本文提出多级文件访问需求组放置策略,先将文件映射到能提供合适的访问需求的设备组中,然后在组内使用动态区间多选放置策略对文件进行放置,使得分布式存储系统可以将带有访问需求的文件放在合适的存储节点上,以便系统可以对不同的文件提供合适的服务质量,并同时保证分布式存储系统的负载均衡性和可扩展性。在此放置策略基础上,本文使用弱相关性的主从副本放置策略,使得存储系统提供更高的容错能力。首先将存储节点按照容量划分成容量大致相同的几个逻辑区段,并将文件的每个副本放置在不同的逻辑区段内,使得每个区段中存在一个文件副本,在区段内的放置使用上述提到的多级文件访问需求组放置策略,使得不同逻辑区段间的多个副本相关性较低,且区段内满足文件访问需求和存储负载均衡。 本文在理论分析基础之上,设计和开发了分布式存储系统的一个仿真实验平台,对所提出的放置策略进行仿真和实验,并将实验的结果与传统的放置策略进行多方面的比较。实验结果表明,本文提出的策略在文件访问需求满足度、负载均衡性和副本相关性等方面都优于传统的文件放置策略,并有很强的应用实践意义。