基于Hadoop分布式平台的重复数据删除技术研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:anlanyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着IT技术的不断跃进,高校、科研院所和企业的数据量也不断攀升,阿里巴巴马z云先生描述人类正迈向IT(Information Technology)到DT(Data Technology)的进程,阐明了数据的重要性。越来越大的数据也催生了 Hadoop、Spark等大规模数据处理平台的诞生,海量数据处理的问题因而变得相对容易。然而,因数据的指数级增长,高校、科研院所和企业储存数据的花费及配套的数据中心运营和储存所需的耗费日益增大。并且,如Hadoop这样的分布式平台只是扩展了储存容量,而没有对储存空间进行优化。研究表明,应用Hadoop平台进行大规模海量数据储存时,将出现很多重复数据,数据重复率达70%到80%[4]。针对Hadoop储存平台内数据重复度高的特点,本文通过将重复数据删除技术与Hadoop分布式处理架构有机结合,对大量重复数据采取去重检测操作,只储存数据的惟一副本,降低了数据冗余。二者结合的这一方案既增强了分布式计算的可伸缩和效率,又确保了数据储存的惟一性,对于日益增长的数据储存需求,这是非常有意义的。因此,本文详细剖析了大规模海量数据储存平台Hadoop的核心技术,同时在去除冗余数据方面进行了相关研究,针对Hadoop平台中存在的大规模冗余数据,提出一种基于Hadoop的高效并行的去重架构。本文主要创新之处在于,在基于Hadoop的可高效并行的去重架构中,对Hadoop输入文件提出了 PHAF快速小文件聚合方案;在指纹算法上首次采用SHA-3获胜算法Keccak作为重复数据检测中的指纹算法以取代传统的MD5、SHA-1和SHA-2等算法。并单独对该算法进行了详细的算法设计和Java语言的实现,实验性能较传统安全指纹算法SHA-224有了很大提高。最后将本文的研究应用到真实慕课学习网站的数据集上,进行了数据块颗粒度的去重实验,给出了实验结果分析。
其他文献
由于图像采集技术的多样性和普及性,数据驱动的图像分析和编辑方法变得越来越热门。然而图像数据的爆炸性增长也带来了许多挑战,其中之一就是如何帮助人们快速有效地从众多素
东道国金融发展水平相对提高(相比中国)对中国制造业海外价值链的投资有何影响?该文通过计算附加值口径下的制造业出口技术复杂度来确定技术密集型行业,利用行业固定资本投入
马铃薯是小麦、水稻和玉米之后的世界第四大粮食作物,但其病毒病严重危害马铃薯作物,并构成重大的产量和经济损失。马铃薯M病毒(Potato virus M,PVM)和马铃薯A病毒(Potato virus
本文我们研究了带有非单调发生率和治疗的SIRS传染病模型.第一部分我们选取治疗函数为线性治疗函数,研究显示,当基本再生数R0≤1时,无病平衡点在第一象限是全局渐近稳定的;当
本文主要是对一株海洋放线菌,一株昆虫内生放线菌和一株植物内生真菌的次级代谢产物的研究。利用多种色谱分离方法对三株菌株的次级代谢产物进行初步处理,最后使用高效液相色
《却扫编》三卷,南宋徐度撰,以记载北宋时期典章制度和前贤轶事为主。徐度,生卒年不详,绍兴年间累官至吏部侍郎。《却扫编》保存较为完整,流传版本较多,主要有临安本和桂阳本两个版本系统,当今通行版本为津逮秘书本和学津讨原本等。《却扫编》为徐度闲居吴兴时所作,书中记载的内容大多来自他和父亲的见闻。此外,徐度为官初期曾担任过校书郎、秘书省正字等职,仕宦经历使他长于典故,有机会翻阅大量典籍,因此《却扫编》中所
由禾谷镰刀菌(Fusarium graminearum)引起的赤霉病已成为影响我国小麦高产稳产的首要病害。该病害不仅会造成小麦减产,病原菌在致病和贮藏过程中产生的DON毒素还会严重影响小麦
随着科学技术的不断发展与创新,工业机器人现已得到广泛应用,机器人产业也逐渐成熟。而自工业机器人出现以来,使用量最大的便是焊接领域。据统计,操作者在焊接过程中判断是否
随着优质蛋白源鱼粉资源日益匮乏,植物蛋白已成为替代蛋白源研究的热点。施氏鲟野生资源濒危,同时是我国重要的经济鱼类,目前市场上还没有针对施氏鲟的饲料产品,植物蛋白对施
我国松科植物分布广泛,松塔为松科松属植物的球果,内含松籽,在松籽加工过程中产生了大量的废弃松塔。同时,我国能源与环境的矛盾突出,开发生物质能源是缓解这一矛盾的有效途