论文部分内容阅读
随着互联网技术的不断飞速发展,数字信息和科技信息等各种数据出现爆炸式增长,海量数据的存储和管理成为一个重要研究内容。分布式存储系统由于其存储容量大、扩展性强等性能方面的优势而被广泛使用。
分布式存储系统多用副本机制实现冗余,这种方式往往导致系统有比较大的存储开销和修复带宽开销。为了提高系统的整体性能,人们在分布式存储系统中引入了网络编码。虽然网络编码可以显著提高系统性能,但是需要连接很多节点去进行修复操作,即严重提高了磁盘I/O。同时引入的网络编码的分布式存储系统的数据加密问题也受到了大家的一致关注。
本文针对分布式存储系统的容错问题和加密问题,以Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)为目标系统,对纠删码和网络编码应用于分布式文件存储系统中的系统性能问题及数据加密问题进行了研究。论文的主要工作包括:
(1)针对网络编码应用于分布式存储系统中时,在故障数据修复过程的磁盘I/O较大的问题,对系统最小存储再生码(MinimumStorageRegenerationCode, MSR)进行改进,考虑其局部修复性,提出一种以系统MSR码为基础的局部修复编码。将副本机制、纠删码机制和以系统MSR码为基础的局部修复编码的机制分别应用于HDFS中,研究了存储开销、修复带宽开销和磁盘I/O开销等性能。通过理论分析和实验证明,在付出一定的存储开销的情况下,本文中提出的方法能够明显降低磁盘的I/O操作。
(2)针对分布式文件系统中数据加密量较多的问题,研究了基于网络编码的HDFS系统的加密机制,提出了一种轻量级的加密机制。该机制不再将所有的数据或者编码数据进行加密,而是只对其中编码过程中使用的编码矩阵进行加密操作,将网络编码和加密操作结合在一起。通过数据分析和实验证明,这种加密方式在保证了系统安全性的前提下,减少了需要加密的数据量,提高了整个系统的效率。
分布式存储系统多用副本机制实现冗余,这种方式往往导致系统有比较大的存储开销和修复带宽开销。为了提高系统的整体性能,人们在分布式存储系统中引入了网络编码。虽然网络编码可以显著提高系统性能,但是需要连接很多节点去进行修复操作,即严重提高了磁盘I/O。同时引入的网络编码的分布式存储系统的数据加密问题也受到了大家的一致关注。
本文针对分布式存储系统的容错问题和加密问题,以Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)为目标系统,对纠删码和网络编码应用于分布式文件存储系统中的系统性能问题及数据加密问题进行了研究。论文的主要工作包括:
(1)针对网络编码应用于分布式存储系统中时,在故障数据修复过程的磁盘I/O较大的问题,对系统最小存储再生码(MinimumStorageRegenerationCode, MSR)进行改进,考虑其局部修复性,提出一种以系统MSR码为基础的局部修复编码。将副本机制、纠删码机制和以系统MSR码为基础的局部修复编码的机制分别应用于HDFS中,研究了存储开销、修复带宽开销和磁盘I/O开销等性能。通过理论分析和实验证明,在付出一定的存储开销的情况下,本文中提出的方法能够明显降低磁盘的I/O操作。
(2)针对分布式文件系统中数据加密量较多的问题,研究了基于网络编码的HDFS系统的加密机制,提出了一种轻量级的加密机制。该机制不再将所有的数据或者编码数据进行加密,而是只对其中编码过程中使用的编码矩阵进行加密操作,将网络编码和加密操作结合在一起。通过数据分析和实验证明,这种加密方式在保证了系统安全性的前提下,减少了需要加密的数据量,提高了整个系统的效率。