基于Hadoop的重复数据清理模型研究与实现

来源 :南华大学 | 被引量 : 0次 | 上传用户:yoyo88420
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今,晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律在2005年左右开始失效了,人类再也不能期待单个CPU的速度每隔18个月就翻一倍,单机的数据清理能力再也满足不了当今人们对海量数据的处理要求。基于大规模计算机集群的分布式并行计算将成为未来数据处理软件性能提升的主要途径。  借助分布式计算近年来的应用热风,本研究从数据质量这个重要因素出发,设计并实现了一个基于Hadoop分布式框架的重复数据清理平台。  Hadoop是一个开源的分布式计算框架。该分布式框架具备良好的扩充能力、较低的运作成本、较高的效率和较好的稳定性,而且它的Map/Reduce编程模式能够与本文的应用(重复数据清理)完美兼容,因此选择Hadoop框架作为本文研究的基础实验框架。当今世界,信息显得尤为宝贵,而数据质量是保证信息提取的一个重要前提。因此利用计算机来进行重复数据清理,减小信息系统数据的冗余度成为一个有意义的研究方向,这也是选择重复数据清理作为本文应用主题的关键原因。  本文利用Hadoop的分布式数据处理特性,完成了完全重复数据清理并实现了数据按关键字段的排序过程,得到了初步聚类数据,然后采用单机预处理的方式对初步聚类数据进行再聚类。再聚类过程是该研究模型设计的重点和难点,它依靠一系列重要算法和清理规则做支撑,得到一个更加精确的聚类结果。经过再聚类处理后的数据最后交由Hadoop平台进行相似重复数据清理,得到最终的清理结果。  本研究中,通过对该模型“过滤”后的实验数据进行分析,结果证实了本模型的可行性。此外通过时效对比实验,本人发现:随着数据量的增大,该模型在数据清理时的效率优势相比于单机越来越明显,从而说明了在实际应用中引入该分布式模型的必要性。最后本文通过分析 Hadoop 参数配置对本模型性能的影响,说明了 Hadoop参数合理配置的重要性,并给出了相关的配置技巧,在一定程度上避免了硬件资源的浪费。
其他文献
在线音乐的快速发展,为用户对音乐的获取提供了极大的便利。为了方便用户选择,在线音乐通常会对音乐进行分类,基于情感的音乐分类是常见的一种分类方式。由于同一首音乐可能
查询纠错属于自然语言处理研究的一方面,随着检索系统(如谷歌、百度、新浪、搜狗等)检索访问量不断增加,查询纠错处理技术受到越来越多的关注。在实际的应用中,用户进行查询
节能是无线传感器网络(WSNs)设计者首要考虑的问题。节点分簇组网方法和网络跨层设计方法是无线传感器网络提高网络性能的技术。本文基于LEACH路由协议进行跨层设计,专门研究
当今伴随着互联网的迅猛发展,各种不同表现形式、不同内容的图像数据也在以几何数量级的速度激增。面对如此纷繁浩大的图像数据库,如何快速而准确地检索到用户满意的图像结果
随着互联网的快速发展,Web上产生了大量与领域相关的信息,这些信息也成了人类获取知识的重要来源。互联网已经成为一个巨大的信息交流平台,大量的信息嵌入在Web页面中。Web页
互联网作为信息的载体已经成为人们获取信息不可缺少的工具。互联网的发展给人类带来了巨大的便利,人们可以跨越时间和空间的距离来共享大量信息。但是,随着互联网的迅速发展
近年来,随着信息技术的不断革新,通信领域的技术发展日新月异,正交频分复用技术(OFDM)作为4G的核心技术受到了广泛关注,已在相关领域取得了重要成果,如WLANIEEE802.11a已选择
随着P2P技术不断发展,尤其是P2P流媒体业务在不断地壮大,给现有互联网带来巨大的威胁,对带宽的巨大消耗就是其中之一。因此,对于P2P流量的管理和控制是非常必要和重要的,而准
随着航天科学技术的不断发展,航天器星载设备系统中的设备数量、种类都急剧增加,对航天器星载设备系统网络的自适应性、数据转发效率和容错性的要求也随之提升。SpaceWire总
随着社会信息化的不断推进,如何对海量的信息进行有效地组织和管理并进行快速地查找,是全文检索技术面临的一大挑战。全文检索技术给海量文本信息的管理和查找带来了方便,但是也