基于Hadoop的非结构化文本数据ETL系统设计与实现

来源 :中国科学院大学(工程管理与信息技术学院) | 被引量 : 4次 | 上传用户:shanxiaoqqqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来的计算机硬件、软件技术不断发展,信息化在各行各业中得到快速推进,使各种组织在内部建立了各种各样的信息应用系统。同时,随着新兴的移动互联网、物联网以及社会化媒体的飞速发展,数据的来源不断增多,数据量不断增大。如何将这些在组织内和组织外不同数据源中大量的分散、零乱、标准不统一的数据整合到一起,为企业的分析、决策提供数据基础与提供数据分享,是信息化中一项重要的挑战。ETL是数据抽取、转换和装载(Extract, Transformation, Loading)的英文简称,是数据仓库获取高质量数据的关键环节,是对分散在各业务系统中的现有数据进行提取、清洗、转换和加载的过程。本文旨在基于开源的Hadoop生态系统基础上,设计和实现一个ETL系统,解决在大数据环境下对非结构化文本进行数据抽取、清洗、转换和加载的问题。本文的主要工作包括:(1)对ETL相关理论和目前ETL系统的现状进行了研究和分析。(2)对实现系统的Hadoop生态系统相关技术进行了研究和分析。(3)基于Hadoop生态系统上进行了ETL系统的需求分析和整体架构设计,并对系统中的工作流调度、工作流管理、工作流执行器和数据流执行器四个核心模块进行了详细设计与实现。(4)对系统进行了测试与分析,证明了基于Hadoop生态系统开发的ETL系统对非结构化文本数据的进行数据集成的可靠性与高效性。本文设计和实现的ETL系统己在国内某运营商仿真环境通过测试。通过基于开源Hadoop系统中的分布式技术,系统完成了对大数据量的非结构化文本的用户通信数据的抽取、清洗、转换和加载,支撑了数据分析或挖掘过程中对快速、高效、正确的数据集成需求。系统经测试稳定、可靠,达到了预期设计目标。
其他文献
在线社交网络的迅速发展使信息呈现爆炸式增长,然而不同消息的流行度存在较大差异,对其准确预测一直是领域内的研究难点。流行度预测的任务是根据消息传播早期过程中涌现的特
服务生产与消费的同步性要求酒店必须在第一次做好服务。以关注顾客、主动预防、持续改进、接近零缺陷为主题特征的六西格玛管理的兴起,给全世界的制造业带来了一场管理态度
目的探讨研究使用不同药物治疗口腔溃疡的临床疗效。方法将145例患者随机分为对照组、A、B、C、D组,每组患者29例,分别给予不同药物进行连续1周的治疗,对比观察各组患者口腔
本文就中国企业对外直接投资所依托优势之三种假说做了比较实证和机理分析。三种假说分别为所有权优势、生产率异质性和规模经济。比较实证显示,规模经济最具解释力,生产率异
<正>UGC是"User Generated Content(用户产生内容)"的缩写。UGC的概念最早起源于互联网领域,即用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户。UGC是伴随着
广西抗战文化不仅是中国抗战文化的总汇,而且是世界反法西斯文化的重要组成部分,同时也是中国抗战文化对外交流的一个重要窗口。站在新的历史起点上,回顾广西抗战文化历史,缅
要发挥法史学的功能和价值,就要使法史学有思想和有影响;要使法史学有思想和有影响,关键是要挖掘和呈现它的法理;方法是从法史中抽绎法理,用法理来解读法史,具体操作是向里探
刑法第 1 7条第 2款关于相对刑事责任年龄的规定本身存在不周延性 ,结合刑事立法解释和刑事司法解释的相关内容 ,其中法律适用问题更加突出。应运用实质合理性和形式合理性原
"十三五"时期我国经济发展进入了新常态时期。这一时期地方政府财政收支活动将面临更大压力。从整体角度、各省级政府角度、制度变迁和外部经济影响角度分析,我国地方政府性
<正>亚洲航空运输市场已成为引领全球航空业增长的主要动力,昆明已成为航空公司争夺的战略要地。"会·聚云南航·行世界"——3月15日至17日,有着全球民航界"亚运会"之称的第