面向工业大数据的分布式ETL系统的设计与实现

来源 :中国科学院大学(中国科学院沈阳计算技术研究所) | 被引量 : 13次 | 上传用户:lucas_f
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从进入工业4.0时代以来,由于互联网和计算机技术的高速发展,在与工业系统深度融合过程中引发的生产力、生产关系、生产技术、商业模式以及创新模式等方面的深度变革,使整个工业系统迈向全面智能化的革命性转变。工业大数据分析是未来工业在全球市场中发挥竞争优势的关键领域。随着物联网和信息物理系统时代的来临,更多数据可以被收集和分析,并用于做出更明智的决策。在整个工业大数据分析的过程中,历史数据如何从各个数据源汇聚到分析系统中、实时数据如何从各个传感器加载到分析系统中成为整个数据分析的基础。这就要用到数据处理工具ETL(Extract-Transform-Load,抽取、转换、加载)。传统的ETL多是在单机系统下并行运行,其处理速度和处理量远远不能满足工业数据分析的要求。而商业ETL性能好,但是价格昂贵,而且对硬件系统的要求太高,无法做到普及。针对以上情况,本文针对工业数据处理设计并实现了一种价格低廉、性能高的分布式ETL系统。本文分布式ETL系统的设计主要分三个模块展开:数据抽取模块、数据转换模块以及数据加载模块。数据抽取阶段主要设计了基于分表触发器的变更数据捕获方案、基于数据校验的差异数据同步方案和基于Redis的Pub/Sub通信模式的实时数据抽取方案。数据转换阶段主要根据数据对处理速度和处理量的要求分别设计了批处理层和加速层,批处理层主要处理对实时性要求不高的历史数据,基于Hadoop的MapReduce实现;加速层主要处理的实时数据,基于Spark Streaming流处理方式实现。数据加载阶段主要由Sqoop来处理结构化数据的加载、由HDFS客户端来处理非结构化数据的加载。最后本文对设计的分布式ETL系统分别进行了功能测试和性能测试。试验结果表明,本文设计的ETL系统在处理工业大数据的问题上具有较好的性能,这对工业数据的信息化改造具有较强的实际意义。
其他文献
【正】 我国老一辈著名剧作家撰写台词时十分强调戏剧人物说话的“语气”,用语言学观点来看,这是因为语气表示说话人一定的说话目的和态度,是构成言语交际活动的重要因素。所
意大利纺机制造商协会(ACIMIT)和意大利对外贸易委员会(ICE)将于1月28日-2月2日在意大利接见一个由10名印度技术纺织品和非织造布生产商组成的代表团。这10家企业是在印度一家专
<正>北京同仁堂集团海外发展喜讯频传:2014年9月,集团正式登陆新西兰,在其第一大城市奥克兰四家分店同时揭牌。10月初,集团与澳大利亚西悉尼大学签署深度合作备忘录。接着,集
以信息经济学的基本原理——委托—代理理论和现在流行的管理权力理论为基础,研究在管理合约中包含激励薪酬和固定薪酬的情况下,最优合约的制定问题。利用Holmstrom—Milgrom模
山东博兴县博物馆藏"奉为高祖文皇帝敬造龙华碑",碑身残缺下部,正文残存1245字。碑文记邑人在故龙华道场之墟古塔基上重修龙华塔之事。经考证,龙华碑刻于隋大业三年四月至八
同传统表面活性剂相比,Gemini表面活性剂不仅表面活性更好、临界胶束浓度值更低,且同时具有传统表面活性剂和聚合物表面活性剂作为驱替剂使用的优秀性能,在EOR领域有着很大的
利用扫描电镜和金相显微镜对304L不锈钢中厚板表面裂纹缺陷进行了分析。结果表明,裂纹缺陷主要是钢板内部奥氏体和铁素体两相比例差异较大及不均匀分布引起的。适当地降低板
目的探讨经阴道四维超声输卵管造影(hysterosalpingo-contrast sonograpy,4D-Hy CoSy)在诊断输卵管通畅性中的应用价值及探讨4D-HyCoSy检查与自然妊娠率(PR)的关系。方法实验一:收集2017年9月至2018年12月在三家医院超声科进行4D-HyCoSy并检查后30天内在妇科进行腹腔镜通染液术(laparoscopic sacrocolpopexy,LS
<正>巍巍娄山关,见证了红军二万五千里的铮铮风骨,涛涛湘江水,孕育着遵义人的钟灵毓秀。遵义是一块红色的土地,因中央红军长征在遵义召开了遵义会议,确立了以毛泽东为核心的
背书是法定的票据流通方式,背书是否连续是判断持票人是否享有或有权履行票据权利的关键。根据《中华人民共和国票据法》第31条第1款之规定:“以背书转让汇票的,背书应当连续