面向大数据平台的数据迁移关键技术研究

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:baochangjingmao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据和云计算的发展,分布式文件系统在众多的存储系统中扮演着越来越重要的角色。与此同时,数据仓库也经历了概念的提出、理论的逐步完善、初步建立仓库,到现在发展成熟等过程。到目前为止,绝大多数数据仓库还是使用传统的关系型数据库来管理其中的数据。然而,随着数据仓库的发展,传统的关系型数据库已不能满足数据仓库建设和维护的需要。互联网上日积月累并不断涌现大量内容丰富、种类各异的数据,使得今天的应用系统要处理的数据对象,成为了海量的结构化、半结构化、非结构化数据并存混合型数据。分布式数据库应运而生,它是一种基于分布式平台的数据库系统,比较典型的有hive和habse。它能够用来处理这些海量、异构、复杂和个性化的数据。  因此,企业或机构开始把数据仓库中的数据存入到分布式文件系统。但现在企业或机构中仍有大量应用是基于传统数据库或传统文件系统的,而传统关系数据库中依然存放着大量的数据。企业或机构需要将数据文件从关系型数据库迁移到分布式文件系统。  Sqoop是Apache的一个数据抽取转换工具,通过自动生成MapReduce代码来实现大数据平台的数据导入导出。将关系型数据库的数据导入到大数据平台分为以下几个步骤:首先,发出一条查询语句,得出待导入数据表的表结构信息(包括字段名称和类型等)。然后,根据命令中指定的split-by列(即划分字段)将数据行划分到不同的map。最后,将划分好的数据交给不同的map去执行MapReduce导入任务。  首先,在导入过程中划分数据到不同map中时,Sqoop的本身实现中采用的是均分点范围划分算法。而数据的分布往往是不均匀的,原划分算法会导致map间数据划分不均匀的问题。本文基于对Sqoop的研究,利用先探测数据分布再划分的思想,提出了一种基于循环的高位统计的数据均匀划分算法,能够有效地将待导入数据进行均匀划分。  另外,本文基于并行化rsync算法重新实现了Sqoop的增量导入功能。rsync是一种数据的增量传输算法,它不但能够只传送少量的增量数据,而且能够利用原数据中已存在的数据块对数据文件进行重构,极大地减少了数据的传送量。因此,它能够有效提高数据的增量导入性能。本文通过将rsync算法并行化,提出了一种基于并行化rsync的增量导入算法。该算法能够有效地提高Sqoop增量导入性能。  最后,本文设计和开发了一个面向大数据平台的数据迁移原型系统。该系统采用JSP为前端和Servlet为后端,以改进后的Sqoop为底层,实现了一个大数据平台的数据导入导出的Web系统。  实验结果表明,基于循环的高位统计的数据划分算法通过均匀划分map,使集群各节点的负载更均衡,有效地提高了大数据平台的节点资源利用率,缩短了数据导入导出时间。另外,并行化的rysnc算法从有别于Sqoop原有实现的角度,实现了数据的增量导入,也有效地提高了Sqoop的性能,并增强了导入的灵活性。
其他文献
生物信息学是应用计算机技术开发算法和统计方法对数据进行分析,确定其所含生物学意义,以实现对生物信息的获取和管理的学科。中国科学院微生物研究所网络信息中心近年来一直致
随着社会经济的发展,人类活动的范围越来越大,面临突发事件和异常事件越来越多,视频监控的重要性与难度也越来越突出,传统的依靠人工来处理海量监控视频数据的方式已经无法满足目
本论文主要介绍了基于Linux的EAST分布式集群系统的设计与实现。随着EAST实验的不断深入,为了满足实验需求和用户对高性能计算的需要,几年来实验室不断购置服务器,新服务器日益
由于光刻对于光源的功率和线宽提出了很高的要求,传统的单腔结构准分子激光器很难在这两方面兼顾。MOPA结构的准分子激光器可以很好地解决激光功率和线宽的矛盾,这一结构的准分
中医知识库是集中医领域内相关医学医药理论知识、事实数据以及根据中医专家经验得到的启发式知识于一体的智能数据库。舌诊是观察舌头的色泽、形态的变化来辅助诊断及鉴别病
随着不断增长的信息化建设需求,提高软件开发的生产力并保证软件产品适应多变的客户需求成为信息化建设领域的两个核心问题。本文试图从软件过程改进和技术革新两个方向共同切
图作为离散对象之间关系的灵活抽象,被广泛应用于很多科学计算和一些新兴的应用领域包括基因组学、天体物理学、人工智能、数据挖掘等。图的宽度搜索算法是用于探索图中具有
计算机技术以及传感器网络的发展,深刻改变了传统的数据采集方法。尤其是生态学中的野外生态观测研究正逐渐朝着自动化、网络化、智能化、常态化的方向发展,是现代生态学科研信
随着互联网技术与移动通信技术的发展,各行各业都积极地将自身的业务与互联网平台相结合,形成“互联网+”的新局面。人们享受着互联网平台方便快捷的同时,也迷失在由它带来的海
蒸汽系统是钢铁石化等工业企业的重要组成部分,它消耗燃料,为整个生产过程提供蒸汽、电力、冷却水等公用工程。蒸汽系统的安全稳定运行是企业安全、稳定、长周期运行的基础。蒸