基于FastDFS的重复数据管理技术的研究与实现

被引量 : 1次 | 上传用户:volcano928812
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的飞速发展,带来的是数字信息量的爆炸式增长,尤其是在云存储系统中,其数据量甚至达到PB级的规模。面对如此庞大的数据量,研究如何有效地发现和消除系统中的重复数据变得尤为重要。数据分块算法能够快速高效地检测出文件之间的重复数据,是相同数据检测技术的核心。针对现有的数据分块算法分块边界不确定导致数据分块过大和容易产生数据碎片的缺点,立足于消除系统中的硬分块,平衡提高分块算法的消重率和降低分块算法的时间消耗之间的矛盾,论文提出了基于预分块的滑动窗口分块算法SWCDC。SWCDC对文件内容没有发生变化的区域采用较大的分块预期值进行分块,而对文件内容发生变化的区域采用较小的分块预期值进行分块。通过区分对待数据变动区域和非变动区域,SWCDC特别适用于对重复数据较多的系统进行重复数据管理。另外,在SWCDC的基础上,为了降低数据分块的元数据开销,提出了基于合并的滑动窗口分块算法ISWFDC。实验结果表明,SWCDC和ISWFDC算法可以比传统的分块算法获得更高的消重性能。针对现有的布隆过滤器在数据块指纹集较大时查询速度较慢,不能很好地适应云存储环境下数据块指纹集的动态增长这一问题,论文提出了动态布隆过滤器矩阵集合DBFMS。DBFMS通过将数据块指纹集表示为s个t?m的位矩阵,而不是s?t个m位的布隆过滤器位串,使检索重复数据块指纹的效率得到了显著的提升。理论分析、仿真测试和实验表明,DBFMS相对于传统的静态布隆过滤器以及动态布隆过滤器而言,其在可扩展性、查询效率和假阳性概率方面都取得了较好的改进效果。最后,本文结合重复数据管理相关理论及其系统结构模型,融入提出的改进算法,并采用开源的FastDFS分布式文件系统,通过配置FastDFS分布式文件系统集群实现了基于FastDFS的重复数据管理平台,完成了文件的上传、下载、删除、重命名以及重复数据管理等功能。对比应用改进算法前后系统的测试结果表明,改进后的重复数据管理系统的消重性能更好,效率更高,更加适用于云存储环境。
其他文献
陈鹤琴是我国现代著名的儿童心理学家、儿童教育专家,他为我国现代幼儿教育事业的发展做出了开拓性的贡献,被誉为“中国的福禄培尔”和“中国幼教之父”。他自上个世纪二十年
当前机器人技术的应用场景已经从传统工业领域快速扩展到农业生产服务、医疗服务、教育娱乐服务、办公后勤服务、酒店管理服务等新领域,一种称为服务机器人的机器人技术迅速
随着我国信息化产业的快速发展,充分运用先进的信息化手段已经成为提高学校的信息化管理水平、教学质量以及促进人才自由而全面发展的有效途径。全面构建学校的信息化环境已
在纪录片《不一样的暑假》创作中,捕捉到了很多有价值的细节,如人物的语言细节、动作细节,场景中的影调细节、背景细节等,通过合理运用这些细节,刻画了人物内心,塑造了雷静琳
目的:探讨一种修复重睑术后并发症更有效的方法。方法:针对重睑术后常见几类并发症,采用上睑缘切口切除多余松弛皮肤、眶隔脂肪、眼轮匝肌、松解上睑皮下瘢痕粘连、缝合睑缘
研究者从不同角度对“读写结合”进行过探讨,本文在前人研究的基础之上,结合认知心理学中的知识分类理论,将“读写结合”所涉及到的知识分为陈述性知识和程序性知识两大类,并
随着中国走向世界,口译作为沟通的桥梁,在跨文化交际中起着重要的作用。因此,这吸引了不少专家、学者乃至社会上的翻译爱好者对各种口译方式及其策略研究的关注。尤其是会议
目的了解基层老年人高血压的现状。方法测量全县60岁以上参保老年人血压。结果全县60岁以上的老年人3765例,患高血压898例,患病率23.85%,知晓率为21.91%、治疗率为19.01%。结
<正> 语言艺术是教师的基本功之一,成功的教学无不得力于教学语言的功力。尤其是数学教学,本身内容比较单调,枯燥乏味,教师的语言艺术就显得更为重要。如何使数学课堂教学语
美国著名浪漫主义作家纳撒尼尔.霍桑的短篇小说《年轻人古德曼·布朗》深刻地阐述了深奥的人生哲理——人性皆罪,可以自赎;更为精彩地是小说清晰地折射了弗洛伊德的人格结构