海量数据环境中分布式并行存储问题研究

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：zhaoyu_hit

【摘要】

：

海量数据存储环境是数据密集型应用的基础设施，而信息基础设施的体系架构的选择和关键技术问题的研究与解决，对整个海量数据存储环境的服务质量和性能至关重要。本文对海量数据

【作者】

：

吕卫忠

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2010年期

【关键词】

：

海量数据存储分布式存储数据网格并行访问信息散列算法负载均衡

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

海量数据存储环境是数据密集型应用的基础设施，而信息基础设施的体系架构的选择和关键技术问题的研究与解决，对整个海量数据存储环境的服务质量和性能至关重要。本文对海量数据存储环境中的数据分布式并行存储的相关问题进行了深入研究，结合密码学的数据散列思想和数据网格技术，提出了一种新的基于信息散列算法(IDA)的分布式并行存储策略的体系架构。充分利用数据的分布式存储的特点，对数据的分布问题和数据的并行访问问题分别做了深入研究，并提出了基于系统负载均衡的数据分布的模型和基于存储服务节点负载性能和网络性能考虑的动态并行访问算法。　　本论文研究的主要贡献有如下几点：　　 (1)对海量数据存储环境中分布式并行存储的相关问题研究进行了综述。分析了海量数据环境与网格计算和云计算的关系。对系统底层存储的系统结构和存储协议的研究进行了综述。深入分析了文件系统层面和应用层面的数据并行访问技术研究。　　 (2)提出了基于信息散列算法(IDA)的分布式并行存储框架模型，并给出了详细的模型定义和逻辑结构组成。整个存储框架集成了信息散列的安全性、高可用性和数据并行访问的高效性的特点，能较好的实现海量数据的安全存储和高效访问。　　 (3)对基于信息散列算法(IDA)的分布式并行存储框架中的数据可用性进行了理论分析。并从存储冗余度的角度出发，就数据可用性问题和数据复制(Replication)技术进行了对比分析。　　 (4)提出基于存储服务节点资源有效利用率和数据文件可用性考量的数据散列度计算方法。使得存储服务节点在数据文件并行访问过程中的有效数据网络传输时间不小于存储服务节点的其他系统开销，即从提升系统资源利用率的角度来确定出合理的信息散列算法(IDA)参数的取值。　　 (5)提出了一种基于向量模型的存储资源分配方法，将存储资源和用户的需求表示为属性向量，并在向量空间中找出和用户需求向量距离最接近的存储资源向量分配给用户，是一种符合用户需求的资源分配方法。　　 (6)提出了一种新的基于负载均衡考虑的数据分布算法，使得分布式存储的共享数据文件访问能使总的数据访问时间最少和总的系统资源占用时间最少，有效提升数据的并行访问性能和系统资源利用率。　　 (7)为了实现最优的分布式数据存储访问的并行性，获得最优的系统资源利用率，本文提出了一种新的适应存储服务器和网络负载变化的动态的并行访问方法，根据存储服务器和网络的负载变化动态的选择存储节点，以获得高性能的数据访问。　　理论抽象分析和模拟试验结果都表明，基于信息散列算法(IDA)的分布式并行存储策略框架能够解决海量数据的存储安全，获得较高的数据可用性和并行访问性能。

其他文献

科学数据库统一检索技术研究与实现

中科院“十一五”信息化建设将建成一个海量的科学数据应用环境。如何对这些海量科学数据进行整合，设计一种有效便捷的资源发现手段，为科研工作者提供统一检索入口，使用户可以便

学位

科学数据库统一检索元数据整合抽象模型数据交换协议

环形DNA分子计算模型的研究

近年来，DNA计算已经成为了科学家关注的热点研究领域。随着分子计算、DNA纳米技术和信息科学等多领域的日益交融，DNA计算及其相关研究都得到了快速发展。科学家设计和构建了多

学位

红外成像辐射计的高温辐射定标方法研究

红外成像辐射计能够获得目标的形状并获得对象的光谱信息,目前已经被广泛应用到社会生活各个领域,已越来越受到人们重视。红外成像辐射计在使用前需对其进行辐射定标,红外成

学位

基于WinCE的数据采集与处理终端设计与开发

Radio Frequency Identification(RFID)射频识别技术,作为一种快速、实时、准确采集与处理信息的高新技术和信息标准化的基础,被列为二十一世纪十大重要技术之一。作为通过对

学位

多假设跟踪算法的研究

多目标跟踪技术被广泛应用于战场监视和精确制导等军事领域,同时在民用领域也有十分广泛的应用,如视频跟踪,空中交通管制等。特别是对数目不定、运动剧变的多目标进行实时有

学位

高分辨率遥感影像阴影检测方法研究

高分辨率遥感影像中的阴影主要是高大建筑物、树木、山脉等对太阳光线的遮挡，在相应位置的影像内产生较暗的区域，阴影区域内的地物在遥感影像上表现为信息量较少，难以判读。阴影

学位

高分辨率遥感影像阴影检测密切关系传播聚类统计混合模型图像分割

端到端可用带宽的测量与分析

网络测量是及时了解网络运行状态、检测网络拥塞、提供接入控制参考依据及保证网络服务质量的基础和必要手段。端到端可用带宽的信息作为网络测量的重要参数之一，其相关测量算

学位

网络测量服务质量可用带宽测量综合评价

高速网络传输协议评价与改进

随着计算机网络的快速发展，网络设备的硬件处理速度越来越快，网络性能不断提高。与此同时大规模网络应用对网络的需求和依赖也在不断提高，例如大规模E-science产生的海量数据需

学位

高速网络传输协议拥塞控制算法吞吐率公平性后向兼容性带宽检测

未确知软件可靠性模型的改进及新方法探索

随着软件应用的日益广泛及其重要性的不断增加,人们对软件质量的要求也越来越高。软件可靠性模型作为可靠性评测的核心和关键,可用于软件生命周期的不同阶段,定量地估计和预

学位

软件可靠性模型盲数遗传规划自适应遗传算子应用一致性

基于论辩的用户评论质量预测方法研究

随着互联网的高速发展，越来越多的用户在电商平台上进行消费。作为用户消费时重要的决策依据，用户消费后反馈的用户评论在快速增长。海量的用户评论导致用户评论的质量参差不齐

学位

用户评论论辩信息文本质量预测性能

海量数据环境中分布式并行存储问题研究

与本文相关的学术论文