论文部分内容阅读
近年来Internet的飞速发展和网格技术的出现和发展,对存储系统在容量、性能、可靠性、分布性以及可扩展性等方面提出了更高的要求,存储领域的研究也相应出现了新的趋势和发展方向。
在对分布式哈希表(DistributedHashTable,DHT)技术研究的基础上,本文研究的目标主要是针对广域对等环境下,研究数据副本散布策略,以及引入副本散布之后系统的数据定位路由的算法模拟,并且给出了模拟结果分析。这对于构建分布式大规模数据存储系统来讲是重要的基础支持。
本文首先综合当前DHT技术分析了其中涉及的主要问题,包括该环境下数据存储的特点和要求。在此基础上,本文讨论了利用完全的冗余方案——数据副本进行研究DHT环境下的数据可用性和相关性能要求。
Chord作为一种典型的分布式哈希表DHT,至今一直对其进行了不断的优化的研究;并且Chord对于其它DHT来讲具有一定的相通之处。因此,本论文的研究方法是,通过结合Chord对所提出的副本散布策略实现模拟。这样保证了策略对于其它的结构化DHT能够具有一定的通用性。
本文的主要贡献体现在以下几个方面:提出了两种副本散布的策略,分析实现了散布的自维护算法;并且,结合Chord模拟器加以实现分析。通过分析实验模拟的结果,这两种策略具有良好的可用性。
数据副本的散布策略本文给出了两种数据散布策略:直接连续副本散布和全局再哈希副本散布策略。前者将每个节点的所有的数据对象,利用后继列表直接散布在其后继列表的前若干个节点上散布数据副本。副本定位简单,数据分布均匀,较好的达到了系统的负载均衡。而后者对于每个主数据对象的各个副本进行再次哈希,以此确定各个副本的位置。由于副本再次哈希的名称空间和主数据相一致,这样副本分布于整个DHT空间,查找定位的代价和Chord一致。
数据副本散布的模拟实现和分析通过各种实验参数下实验模拟,得到这两种策略的实验结果。这两种策略相比较,在副本查找定位的性能上有一定的相似性。但是在节点的数据散布均衡等方面存在较大差异,有待进一步的优化。
最后在进一步的工作中,需要综合考虑性能和可用性等具体量化的要求,进而优化副本散布的策略。在满足数据可用性的基础上,进一步将提高数据对象访问的性能。