论文部分内容阅读
随着企业中信息技术的应用日益广泛,信息系统在企业发展过程中不断被建立和完善。就大型企业和政府部门的信息化进程来说,其信息系统的建设通常具有两个特点:分布性和阶段性,因而导致了“信息孤岛(Information Silo)”现象的发生。数据集成技术(也被称为ETL技术)作为一种解决“信息孤岛”问题的方案,负责将不同特点、来源及格式的数据在物理上或逻辑上有机地进行集中,从而为企业提供全面的数据共享。经过多年的发展,数据集成技术在数据仓库领域已经有了比较广泛的应用。近年来,随着大数据、云计算技术的兴起,企业对数据的依赖进一步加深,获取信息的来源较之以往更加多样化,如移动设备,因特网等,与此同时,对海量异构数据进行集成的问题也受到了人们越来越多的关注。现有数据集成架构基本能够满足功能和易用性上的需求,但是在大数据环境下,其效率、可靠性、可扩展性都没有得到很好的解决,因此本文着眼于ETL工作流的并发执行和基于事务的ETL数据处理,对现有数据集成架构进行改造,提出了高可靠性群集数据集成系统架构。本课题首先研究了开源流处理平台Storm的整体框架,然后分析了使用Storm进行ETL数据流处理所具备的优势以及还需要解决的问题,并在此基础上提出了一套基于群集计算的高可靠数据集成系统架构。为了并发执行ETL工作流,我们结合它的特点提出了ETL数据分组方法和ETL工作流并行化方法,并解决了ETL工作流并发执行时所需的数据缓存关键技术。针对ETL数据处理的可靠性问题,我们结合Storm平台所提供的消息可靠性保障机制,提出了基于事务的ETL数据处理方法,设计了ETL事务的并发控制协议:process-commit,并解决了ETL数据的事务处理的关键技术,包括事务的协调、事务触发以及事务状态管理。我们研究了工作流映射的关键技术,将抽象的ETL工作流映射成为能够在数据处理引擎上执行的任务。最后,本文通过一系列实验证明了高可靠群集数据集成方案的正确性。