基于Hadoop分布式系统的重复数据检测技术研究与应用

来源 :湖南大学 | 被引量 : 0次 | 上传用户:yong1123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,云计算和重复数据删除技术也得到了迅速的发展。云计算凭借其强大的分布式计算能力以及低成本高可靠性的优势,在海量数据处理方面占据主导地位,但是Hadoop系统中数据进行归档时,存在大量重复数据,影响系统的处理效率。重复数据删除技术是一种热门的存储技术,可对存储容量进行优化,很大程度上减少对物理存储空间的浪费,从而满足日益增长的数据存储需求。因此,云计算和重复数据删除技术的结合将会是一个双赢的解决方案。针对以上问题,本文分析了当前云计算平台Hadoop和重复数据删除技术的特点后,利用Hadoop分布式平台来管理海量数据。同时,针对Hadoop系统中存在的大量重复数据,本文提出来一种基于重复数据删除技术的去重检测技术,利用指纹算法BLAKE生成数据块指纹,采用基于数据块级的删除粒度,使用In-line方式有效删除重复数据。哈希SHA-3算法凭借其在数据运算上的优势,得到业界的认可,本文首次采用SHA-3候选算法BLAKE作为重复数据检测技术中的指纹函数,取代了原始的重复数据指纹算法MD5,进行重复数据指纹的生成和指纹匹配,并单独对该算法进行详细的软件设计和实现,实验性能比传统指纹算法MD5有了很大的提高。最后将本文的研究应用到车联网中,利用Hadoop存储管理大规模车联网数据。根据HBase数据模型的特点,设计了交通数据的分布式数据存储模型,其中详细给出了主表和反向表的设计,一定程度上满足用户的条件查询。并利用重复数据删除技术对车联网归档时存在的重复数据进行去重检测,通过对三组汽车终端数据集进行实验,给出详细性能分析,大大降低了硬盘存储消耗,提高了存储效率,消除了数据存储冗余。
其他文献
由于以IPv4为核心的互联网出现的问题越来越多,各个国家的新一代互联网研究计划不断启动、实施和重组,其研究工作和实验正在不断的深入。目前关于新一代互联网的研究,有人想
近年来,随着信息技术和通信网络的飞速发展,人们获取信息的方式从大量的物质介质转化为网络文档,这种发展给人们带来了方便的同时也给我们的生活和技术本身的发展起到负面的
数据预测是指在分析现有数据的基础上估计或推测未来的数据的过程。随着Internet和数据库技术的迅速发展,数据预测方法及其应用研究已经越来越为人们所重视。目前,常用的预测方
传统的物资管理系统,由于采用人工手写票据的管理方式,不但工序繁杂、容易导致人为损失,而且人工和物流成本极高。产品结构在持续发展的企业规模的推动下日趋复杂,并且整个市场对
随着我国经济的不断发展,在日常生活和工业生产中产生的固体废物总量也在持续高速增长,这些固体废物种类繁多、性质复杂,给目前的固体废物监控管理工作带来极大的不便,传统的管理
无线传感器网络(Wireless Sensor Networks, WSNs)数据融合(DataAggregation),是指将多个传感器节点的数据进行处理,以消除数据冗余传输,并将融合结果发送到基站的一种技术。通过降
近几年,随着移动互联网技术和地理信息技术的发展,基于位置服务应用逐渐兴起,从而使得空间定位信息的数据量呈现以指数级增长。而在地理位置信息相关的空间数据查询中,RkNN (
系统拥有高的安全性和可靠性意味着工作人员的人身安全能够得到更好的保障,同时也可以提高经济效益和生产效率。容错控制(Fault Tolerant Control, FTC)能在系统发生故障的情
随着中国城镇化脚步的不断跨步,城市人流量及机动车等呈现爆炸式的增长,由此带来的一系列管理问题正给交警部门带来了前所未有的严峻挑战。过去十年,交警部门的信息化建设相
随着多媒体技术的发展,三维重建技术被广泛应用于电影特效、数字城市、三维游戏、人机交互、非物质文化遗产保护等领域。近年来,基于多视图的立体三维重建更是计算机视觉领域