论文部分内容阅读
区别于传统的存储服务,P2P存储系统是通过够聚合网络上的空闲存储和带宽资源来提供存储服务,而不是基于数据中心。这使得P2P存储在当今具有重要的应用价值:一方面,随着数据中心规模的增长,其维护和带宽开销使传统存储服务的成本越来越高;另一方面,随着计算机磁盘容量的增长,网络上的边缘存储资源迅速增加,提高了P2P存储的潜在服务能力。因此,越来越多的存储服务提供商希望把P2P存储融合进来,降低数据中心的开销和避免数据中心的单点失效问题。
然而,P2P网络上搭建存储应用而临着特有的难题:(1)节点发生频繁的暂时失效,造成存储在节点上的数据经常不可访问;(2)节点平均寿命比较短,造成存储在节点上的数据容易丢失;(3)暂时失效和永久失效难以区分,增加了修复丢失数据的复杂度。因此,数据的维护是构建P2P存储系统的核心难题。由于节点行为和动态性不同,传统存储系统中使用的策略并不能解决上述问题。
本文基于P2P网络的动态性的特征,提出了一套适合高动态环境的数据维护方案。它的高效性源于:(1)挖掘了节点暂时失效的模式,能够屏蔽更多的暂时失效;(2)利用节点暂时失效和永久失效的分布判断失效类型,用最少的带宽修复丢失的冗余数据;(3)通过对节点寿命的估计,引入最小的额外开销降低数据丢失的风险。该方案最终指导了P2P存储系统AmazingStore的构建,本文通过Amazing Store实际的运行数据证明方案的高效性,并实例化说明如何将数据中心和P2P存储结合起来。
本文的主要贡献包括以下几个方面:
(1)细粒度的可用性分析模型,基于节点在线模式的分发方案。本文首次考虑了节点在线模式对文件可用性的影响,提出了更符合实际情况的模式相关可用分析模型,并依据该模型提出了基于节点在线模式的分发方案。分析和实验均表明,本文的分发方案通过节点在线模式的互补提高了文件的整体可用性。
(2)基于误判和判断延迟平衡的永久失效判别器Neutralizer。本文首次回答了如何在P2P存储环境下选择时间阈值的难题,提出了Neutralizer判断器。它基于误判带来的额外可用性和判断延迟降低的可用性在长期上相互抵消的思想,达到了接近最优的修复开销和可用性折中。本文通过理论分析和实验说明了Neutralizer算法的优点,尤其是在高动态系统环境下的良好性能。
(3)基于节点可靠性估计的失效预防方案AutoProc。本文首次回答了如何选取合适的冗余产生率来保证系统的可靠性目标,提出了AutoProc失效预防策略。AutoProc基于一个可靠性近似模型可以依据系统动态性自动配置达到可靠性要求的最低冗余产生率;同时,AutoProc还通过统计节点(历史和当前)在线行为分析其当前永久失效的可能性,进而准确地找出哪些文件的可靠性较低;并通过优先调度低可靠文件提高系统整体的可靠性。
(4)高效的P2P存储系统AmazingStore。本文通过AmazingStore系统的设计说明如何在实际系统中实现本文的数据维护方案,并通过系统的实际部署和运行验证了本文的研究成果。