论文部分内容阅读
在当今社会,伴随着社交网络、物联网、互联网等技术的普及,全球数据信息正以指数级的速度爆炸性增长。而数据的存储量也由TB、PB到EB、ZB甚至YB不断扩大。然而,在人们的生活工作中,来自自然环境破坏、网络病毒感染、人为操作失误等不良因素会导致数据的丢失,将会对企业和社会造成无法挽救的损失。过去采用文件三副本的方法来保证数据的安全性。但是,随着数据指数级的增长,采用三副本需要大量的存储空间,需要大量的存储开销。因此,采用三副本的容灾系统已经不能完全满足系统容错需求与存储效率需要。纠删码是一种前向错误纠正技术和编码容错技术,作为存储系统容错的主要方法越来越受到重视。本文研究基于RS纠删码的云存储容灾系统,主要工作包括以下几个方面:1.首先,本文提出了一种扫描冷数据技术,能够定期的扫描出文件系统中的冷数据文件。求出系统中所有文件的平均热度,如果某文件的被访问次数与没有被访问的时间间隔的比值小于平均热度,该文件视为冷数据。2.然后,本系统利用现有的RS纠删码技术,提出了一种可降低存储成本的容灾备份方案。保留HDFS中冷数据的一个副本,删除冷数据的剩余副本,编码冷数据生成校验块。当需要读取冷数据的时候,如果数据发生丢失,利用冗余数据译码出原始冷数据;如果冷数据被访问了,冷数据变成了热数据,此时,删除冷数据的冗余数据,重新为冷数据文件增添两个副本。3.最后,本文设计了一个云存储系统架构并实现了系统容灾功能。用户在Web界面上能方便的对文件进行操作,包括上传文件、下载文件、删除文件和搜索文件等。在冷数据文件编码和恢复系统界面上,设定时间阀值,能扫描出冷数据;设定不同的编码单元,可以对文件进行不同方案的编码,生成冗余数据,保证数据安全性。最后,对了云存储容灾系统进行功能与性能的验证。