基于Hadoop的重复数据删除技术研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:abcwangyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop在处理某些特定数据时,特定数据中冗余的数据会影响系统的存储效率,浪费存储资源。而重复数据删除技术可以有效识别系统中重复的文件或数据块,节省系统存储空间,提高系统资源有效使用率。Hadoop是当前大数据领域中主流的开发平台,如能将重复数据删除技术应用在Hadoop平台当中,可有效促进当前大数据的发展。目前在Hadoop上实现重复删除技术的相关设计,过多的关注于重复数据删除技术本身,而没有贴合Hadoop自身的一些特性去分析设计,导致其并不适合在Hadoop中应用。目前设计中的缺点,一是索引文件设计会导致系统文件数目翻倍进而造成NameNode内存空间占用量增加,影响系统效率;二是系统不兼容Hadoop抽象文件系统,侧于重文件下载而不提供文件随机读取的能力;还有客户端-服务端的设计架构导致服务端成为系统瓶颈,不适合大规模数据的存储。本文基于对Hadoop的研究提出一种新的设计架构和索引文件设计方法,解决以上问题。具体内容为:1)提出一种新的重删文件系统架构,该架构将在原HDFS客户端上实现重复数据删除功能。新客户端中重删文件数据直接与数据节点交互,避免常规架构设计中服务端成为系统瓶颈的问题。2)设计一种新的索引文件。新索引文件设计能减少HDFS上的文件数量,降低NameNode内存空间的使用,并有效支持系统文件随机读取的能力,提高系统效率。3)基于以上的设计,在Hadoop实现了重删分布式文件系统原型,系统能有效删减重复数据,降低存储空间并兼容Hadoop抽象文件系统。最后对原型系统进行了全面测试,包括系统重删率、文件读写速度、并发读写性能、文件删除等,结果表明原型系统在指定数据集下的重删率达到了 56.4%,其他功能也达到预期效果。
其他文献
自古以来,中国便有“学力”一说,但将学力广泛运用在教育领域的是日本。在日本的教育界,学力被运用到学生及其学习评价的各个方面,并将学生的学力与学生的社会能力结合起来。学力在体育教学方面的运用,结合了学生通过体育学习所获得的能力与社会生存能力,主要分为四大能力:技术能力、社会能力、认识能力、感知能力。学力的概念引入我国体育教学界后,我国体育界学者将体育学力上升到了终身体育能力的层次,认为包括健美操、体
至今,甘肃金融控股集团有限公司已正式运营两年,作为地方性金融控股集团公司,承担着为甘肃省经济发展提供资本支持的重任,较好地履行了国企职责,体现了市场价值。但随着公司
为提高基于信息检索的程序理解方法的准确性,提出了一种结合信息检索和概率状态机的两阶段程序理解方法.在该方法中使用概率有限自动机(probabilistic finite-stateautomata,PFA)
近年来,我国关于医药行业的政策密集出台,在医改政策的调控下,产业结构优化,行业集中度不断提升,全产业链布局、多产品并举成为医药行业的发展趋势。而在理论及实务界,全产业
H.264可变大小块运动估计技术使得运动估计运算量剧增,为了解决这个问题,文章提出了一种自适应提前终止搜索算法.根据整数DCT变换和量化的特性,通过提前判定全零系数块来终止没有
随着网络的快速发展,网络欺凌问题越来越凸显出来。本文以高中生网络欺凌为研究对象,调查分析高中生网络欺凌现状,分析网络欺凌产生原因,最后提出相应对策。首先,论文对网络欺凌的概念、类型、平台。工具等进行了概述。其次,以两所高中为样本进行问卷调查,从网络欺凌的认知、网络行为的态度、网络欺凌的行为三个维度展开设计,结合描述性统计分析、独立样本T检验、方差检验等方法,对高中生网络欺凌行为在性别、生源地、年级
据报道,针对优秀教师不断被“挖墙脚”的情况,浙江绍兴市某区教育局日前出台《教师流动“转会制”实施意见》,规定教师转入学校必须支付给转出学校一定的转校费,最高达15万元。“
葡聚糖类植物抗病诱导剂,是一种全新抗病机理的生物农药,其主要是通过激活植物的免疫系统来抗御致病菌的入侵,从而增强植物的抗病能力,使植物健康生长。其研发、生产及应用已
作业是提升基础教育质量的关键领域之一,是实现教育教学质量提升的重要载体,也是社会认识学校教育的一个重要窗口。作业用来巩固所学知识、熟练所学方法。对学生而言,精准有
每年9月有教师节,也有“节日礼物现象”。给教师送点薄礼,表达感谢之意本无可厚非,但近年来,给老师送礼之风兴起,使原本纯朴的师生关系逐渐变味。送礼歪风不但造成了学生之间的盲