基于Hadoop平台的分布式重删存储系统

来源 :计算机应用 | 被引量 : 0次 | 上传用户:mnbv808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,Map Reduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。
其他文献
【摘 要】 创意学习是面向未来的高品质的重要学习样态。儿童的创意学习素养有赖于创意学习活动课程的推进。学校要做好创意学习活动课程的顶层设计,教师要在课堂实践中坚守创意学习原则,儿童是创意学习活动课程的主体和目标。  【关键词】 创意学习;儿童立场;活动课程;顶层设计  【作者简介】 孙大武,中学高级教师,江苏省特级教师。  【基金项目】 江苏省教育科学“十三五”规划课题、江苏省教育规划第四批精品课
学会学习是素质教育的重要目标之一,也是顺应时代发展的需要。今天的学生在走出校门之后要适应社会、适应时代,就必须不断学习,让学生会学是教师必须担负的责任。在中学英语教学
写作教学是高中英语教学的重要组成部分。根据《普通高中英语课程标准》(实验)(以下简称《课标》)对写作技能目标的要求,在基础教育结束时学生须“能根据所读文章进行转述或写摘要
21世纪,以计算机和网络通讯为核心的信息技术在社会各个领域中的得到广泛应用,信息的获取、分析、处理、发布和应用能力将成为衡量现代人基本能力和文化水平的重要标志。培养学
【摘要】有效的课堂教学需要有效的课堂活动。有效课堂活动应坚持的基本原则包括目的明确原则、有序引导原则、科学评价原则、主动参与原则、灵活运用原则。  【关键词】课堂教学;有效课堂活动;基本原则  【作者简介】孙玉明,中学高级教师,河北省承德市教研室课题负责人;刘保团,河北省宽城满族自治县第一中学教学科研处主任,中学正高级教师,河北省特级教师。有效的课堂教学需要有效的课堂活动。随着中小学课程改革在全国
现有X线气胸检测存在两个主要问题:一是由于气胸通常与肋骨、锁骨等组织重叠,在临床上存在较大的漏诊,而现有算法的检测性能仍有待提高;二是现有基于卷积神经网络的算法无法给出可疑的气胸区域,缺乏可解释性。针对上述问题,提出了一种结合密集卷积网络(DenseNet)与梯度加权类激活映射的方法用于X线气胸的检测与定位。首先,构建了一个较大规模的胸部X线数据集PX-ray用于模型的训练和测试。其次,修改Den
高维多目标优化问题(MAOP)会随着待优化问题维度的增加形成巨大的目标空间,导致在目标空间中非支配解的比例急剧增加,削弱了进化算法的选择压力,降低了进化算法对MAOP的求解效率。针对这一问题,提出一种以超球型支配关系降低种群中非支配解数量的粒子群优化(PSO)算法。算法以模糊支配策略来维持种群对MAOP的选择压力,并通过全局极值的选择和外部档案的维护来保持种群个体在目标空间中的分布。在标准测试集D
针对二进制偏移载波(BOC)调制信号捕获模糊问题,提出了一种基于本地BOC信号分解-合成的算法。首先,将副载波按照本地BOC信号的阶数n进行分解;其次,把分解得到的函数分别与伪随
针对低信噪比(SNR)下时分数据调制二进制偏移载波调制信号(TDDM-BOC)的组合码序列盲估计问题,提出一种基于Sanger神经网络(Sanger NN)的新方法。首先将已分段的信号作为输入信号并利用Sanger NN提取各主分量的权值向量;然后通过其多次输入反复训练权值向量,直至权值向量达到收敛;最终利用各个权值向量的符号函数重建信号的组合码序列,实现TDDM-BOC组合码序列的盲估计。此外,