论文部分内容阅读
数据仓库是一新型的数据库管理系统,对企业的历史数据进行各种各样的分析,能够集成各种异构数据源并能满足企业管理者对数据查询的快速响应,其最终目的是为企业的管理者提供决策的支持信息。ETL (Extract Transform Load,抽取、转换、装载)是数据仓库建立的核心过程,而手工编码实现ETL,对各个异构数据源都要单独实现ETL,这样对ETL的管理和维护难度就较大,因此构建高效、灵活的ETL工具是很有必要的。
本文将工作流的概念引入ETL过程中,构建了基于工作流引擎的ETL工具。设计实现了采用FSM (Finite State Machine,有限状态机)原理的工作流引擎、ETL任务模块和基于连接池机制的DAO(Data Access Object,数据访问对象)。在工作流基础上实现对ETL,任务的控制、管理和监控,通过DAO集中控制对数据库的访问,这样解决了ETL,任务之间复杂的调度管理。针对大数据加载效率问题和数据仓库增量更新的问题,提出了并行加载方案和基于Oracle的MV(Materialized View,物化视图)和CDC(Change Data Capture,变化数据捕捉)的数据增量更新方案,为数据的加载和增量更新提供了一套新的方法和思路。
本文围绕着构建基于工作流引擎的ETL工具而展开.首先介绍了数据仓库、ETL以及工作流、工作流管理系统、工作流引擎、和构建工作流的ETL,工具的意义。接着重描述了基于工作流引擎的:ETL设计的各个模块以及整体架构。在基于工作流引擎的ETL工具中,主要分成工作流引擎模块、ETL任务模块、DAO模块。然后对大数据量的并行加载,设计了基于Oracle数据库的并行机制实现并行加载以及基于工作流的大数据并行加载;针对实际数据分析项目,设计了基于Oracle的MV和CDC的增量数据更新。最后对本文研究方向进行总结和展望。