高可靠性动态群集数据集成系统的研究与实现

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:luchsky123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业中信息技术的应用日益广泛,信息系统在企业发展过程中不断被建立和完善。就大型企业和政府部门的信息化进程来说,其信息系统的建设通常具有两个特点:分布性和阶段性,因而导致了“信息孤岛(Information Silo)”现象的发生。数据集成技术(也被称为ETL技术)作为一种解决“信息孤岛”问题的方案,负责将不同特点、来源及格式的数据在物理上或逻辑上有机地进行集中,从而为企业提供全面的数据共享。经过多年的发展,数据集成技术在数据仓库领域已经有了比较广泛的应用。近年来,随着大数据、云计算技术的兴起,企业对数据的依赖进一步加深,获取信息的来源较之以往更加多样化,如移动设备,因特网等,与此同时,对海量异构数据进行集成的问题也受到了人们越来越多的关注。现有数据集成架构基本能够满足功能和易用性上的需求,但是在大数据环境下,其效率、可靠性、可扩展性都没有得到很好的解决,因此本文着眼于ETL工作流的并发执行和基于事务的ETL数据处理,对现有数据集成架构进行改造,提出了高可靠性群集数据集成系统架构。本课题首先研究了开源流处理平台Storm的整体框架,然后分析了使用Storm进行ETL数据流处理所具备的优势以及还需要解决的问题,并在此基础上提出了一套基于群集计算的高可靠数据集成系统架构。为了并发执行ETL工作流,我们结合它的特点提出了ETL数据分组方法和ETL工作流并行化方法,并解决了ETL工作流并发执行时所需的数据缓存关键技术。针对ETL数据处理的可靠性问题,我们结合Storm平台所提供的消息可靠性保障机制,提出了基于事务的ETL数据处理方法,设计了ETL事务的并发控制协议:process-commit,并解决了ETL数据的事务处理的关键技术,包括事务的协调、事务触发以及事务状态管理。我们研究了工作流映射的关键技术,将抽象的ETL工作流映射成为能够在数据处理引擎上执行的任务。最后,本文通过一系列实验证明了高可靠群集数据集成方案的正确性。
其他文献
虫咬皮炎是由多种昆虫叮咬皮肤所致.主要包括蚊、蠓、螨、臭虫、跳蚤、蜱、蜈蚣、蜜蜂、蝎子、刺毛虫等节肢动物的叮咬,皮疹主要为炎症反应,局部红肿、痒痛.
物资采购是企业经营的重要环节,以施工企业为例,在承建工程项目时,需要耗费大量的物资,以满足工程建设的需求,随着工程项目市场化的推进,物资采购招投标模式应运而生,大部分
西方音乐史是一个历时记录音乐发展脉络的立体科学,它涉及了音乐学、艺术学、历史学等多个研究领域,各种事项、观念、思潮掺杂其中,使西方音乐史学的研究变得极为复杂。引入人类
目的探讨重度妊高征终止妊娠时机及方式.方法回顾分析我院近5年来收治的4474例孕妇中的106例重度妊高征终止妊娠的时机及方式,并进行比较总结.结果重度妊高征发生率为2.37%,
阀板是液压马达的关键零件,具有多台阶异形复杂结构和力学性能要求高等特点。本文采用粉末冶金技术替代原铸造工艺,通过精选材料配方,合理进行成形模具模架设计,控制烧结熔渗过程
师法古代先贤是书法艺术学习的必由之路。师法什么、怎么师古是每一位书法学习者必须探究的问题。纵观历代书家,由于各自艺术观念、审美理想不同及时代趋势和受家族文化的影
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
随着我国经济的快速发展,化工仪表自动化技术也随之不断提高,为了进一步保证应用效率,需要加强化工仪表自动化设备的预防性维护能力,本文基于工作实践,分析了化工仪表自动化
现如今,科学技术的不断进步与发展,使节能技术在我国各个领域得到广泛应用,风景园林施工也不例外。鉴于此,本文研究过程中首先阐述了风景园林施工中节能技术的分类,其次探讨