一种分布式ETL系统的设计与研究

被引量 : 11次 | 上传用户:jili7315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和物联网技术的高速发展,一个“信息爆炸”的时代已然来临。首先,在企业内部,部门之间存在各种分散的生产报表、财务报表、销售报表、.人力资源报表等各种类型的异构信息;其次,在公司外部,随着微博、‘社交网站、电子商务的兴起,每时每刻都会产生海量的、跟该公司密切相关的数据信息;最后,随着物联网技术的发展,大量不同种类的无线设备投入使用,数据的来源越来越多样化、复杂化,数据的存储格式越来越多样化,存储位置越来越离散化。对一个企业来讲,如何有效利用这些数据信息以及如何在海量的数据中,获取对企业的商业决策有利的信息,将直接关乎企业的生死存亡。多源异构数据聚合技术是解决上述问题的关键技术,而ETL(Extract, Transform and Load)技术,即数据的抽取、转换和加载,则是上述技术的典型代表。传统的ETL工具通常具有以下不足:集中式执行,无法有效处理分布式的海量数据;对硬件设备要求高、价格昂贵等。本文针对传统ETL工具的不足,设计了一种基于Hadoop的分布式ETL系统。在数据抽取阶段(E),本文设计了一种智能数据抽取器,可以根据用户指定数据源地址,智能地判断出数据源类型,从而针对不同的数据源类型采取不同的数据抽取策略;此外,该智能数据抽取器采用了一种差异数据抽取传输算法,能够只传输变化数据,从而大大提高了网络带宽的利用率。在数据转换阶段(T),针对多源异构数据聚合型作业大都为数据密集型作业这一特点,本文将经过优化的Hadoop系统设计为数据转换引擎;同时,为方便使用,设计了一种规则转换输入器,使得用户不仅可以使用MapReduce程序来定义数据转换规则,还可以使用简单的类SQL语句来定义。在数据装载阶段(L),本文设计了一种简单的数据加载器,可以方便、高效地将分布式文件系统中的数据批量加载到数据库或其他指定位置。
其他文献
目的探讨内镜治疗上消化道出血的临床护理对策。方法选取上消化道出血患者40例,均行内镜治疗,并加强治疗前、治疗中以及治疗后的护理。结果本组40例患者中,除1例患者转外科手
随着不同类型网络之间数据的共享和融合,当前广播数字电视网的传统业务形式已不能满足用户、网络运营商双方的业务要求。近年广电网运营商已经开始不断追求提供更为人性化、
基于钻井和实测资料对研究区进行有机地化和沉积学分析,总结典型富生烃凹陷黄河口凹陷3套湖相烃源岩的特征及沉积背景,以此为基础进行层序研究,探讨黄河口凹陷古近系湖相烃源
从图书馆建筑对大学校园特殊意义的阐释入手,解析清华人文社科图书馆设计理念产生的由来和历程。在此基础上,结合重要公共界面的营造,归纳了博塔在设计母题选择和场地文脉融
信息社会,个人数字信息高速膨胀。作为新兴的存储方式,云存储具有低成本、可扩展、无实体等优点,因而受到越来越多用户的青睐。用户在使用云存储的过程中需要关注两方面的安
发展养鹅业是振兴我省农村经济的重要途径赵霞,安宇平,汪连涛(黑龙江省畜牧研究所)谢永坚(黑龙江省畜牧局)一、发展养鹅业是振兴农村经济的需要我国商品经济的发展,使一些开发性农业
讨论了漆膜耐冲击性测定时的影响因素,单位表示以及仪器和测试方法的进展。
《拟邺中集诗》在语句、风格、开篇方式等方面多有模仿、借鉴曹植作品之处,显示谢灵运对曹作之熟悉与倾心。组诗据相关史料、作家作品等真实性资料虚构了一场君臣尽欢的宴会,
本文采用气相色谱-质谱联用法测定墨水中的苯酚。通过反复进样及多次实验,建立了气相色谱-质谱联用法测定墨水中的苯酚。线性回归方程为:y=63911x-37458,R2=0.9998。方法的检出限
本文主要描述以HT48R30A单片机为微处理器构成的电路系统硬件的工作原理,着重介绍了本系统所应用的各硬件接口技术和各个接口模块的功能及工作过程.通过载体显示数据,所以具有人