论文部分内容阅读
海量数据存储环境是数据密集型应用的基础设施,而信息基础设施的体系架构的选择和关键技术问题的研究与解决,对整个海量数据存储环境的服务质量和性能至关重要。本文对海量数据存储环境中的数据分布式并行存储的相关问题进行了深入研究,结合密码学的数据散列思想和数据网格技术,提出了一种新的基于信息散列算法(IDA)的分布式并行存储策略的体系架构。充分利用数据的分布式存储的特点,对数据的分布问题和数据的并行访问问题分别做了深入研究,并提出了基于系统负载均衡的数据分布的模型和基于存储服务节点负载性能和网络性能考虑的动态并行访问算法。
本论文研究的主要贡献有如下几点:
(1)对海量数据存储环境中分布式并行存储的相关问题研究进行了综述。分析了海量数据环境与网格计算和云计算的关系。对系统底层存储的系统结构和存储协议的研究进行了综述。深入分析了文件系统层面和应用层面的数据并行访问技术研究。
(2)提出了基于信息散列算法(IDA)的分布式并行存储框架模型,并给出了详细的模型定义和逻辑结构组成。整个存储框架集成了信息散列的安全性、高可用性和数据并行访问的高效性的特点,能较好的实现海量数据的安全存储和高效访问。
(3)对基于信息散列算法(IDA)的分布式并行存储框架中的数据可用性进行了理论分析。并从存储冗余度的角度出发,就数据可用性问题和数据复制(Replication)技术进行了对比分析。
(4)提出基于存储服务节点资源有效利用率和数据文件可用性考量的数据散列度计算方法。使得存储服务节点在数据文件并行访问过程中的有效数据网络传输时间不小于存储服务节点的其他系统开销,即从提升系统资源利用率的角度来确定出合理的信息散列算法(IDA)参数的取值。
(5)提出了一种基于向量模型的存储资源分配方法,将存储资源和用户的需求表示为属性向量,并在向量空间中找出和用户需求向量距离最接近的存储资源向量分配给用户,是一种符合用户需求的资源分配方法。
(6)提出了一种新的基于负载均衡考虑的数据分布算法,使得分布式存储的共享数据文件访问能使总的数据访问时间最少和总的系统资源占用时间最少,有效提升数据的并行访问性能和系统资源利用率。
(7)为了实现最优的分布式数据存储访问的并行性,获得最优的系统资源利用率,本文提出了一种新的适应存储服务器和网络负载变化的动态的并行访问方法,根据存储服务器和网络的负载变化动态的选择存储节点,以获得高性能的数据访问。
理论抽象分析和模拟试验结果都表明,基于信息散列算法(IDA)的分布式并行存储策略框架能够解决海量数据的存储安全,获得较高的数据可用性和并行访问性能。