基于工作流引擎的数据仓库ETL研究与开发

来源 :东南大学 | 被引量 : 0次 | 上传用户:mirowtg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库是一新型的数据库管理系统,对企业的历史数据进行各种各样的分析,能够集成各种异构数据源并能满足企业管理者对数据查询的快速响应,其最终目的是为企业的管理者提供决策的支持信息。ETL (Extract Transform Load,抽取、转换、装载)是数据仓库建立的核心过程,而手工编码实现ETL,对各个异构数据源都要单独实现ETL,这样对ETL的管理和维护难度就较大,因此构建高效、灵活的ETL工具是很有必要的。 本文将工作流的概念引入ETL过程中,构建了基于工作流引擎的ETL工具。设计实现了采用FSM (Finite State Machine,有限状态机)原理的工作流引擎、ETL任务模块和基于连接池机制的DAO(Data Access Object,数据访问对象)。在工作流基础上实现对ETL,任务的控制、管理和监控,通过DAO集中控制对数据库的访问,这样解决了ETL,任务之间复杂的调度管理。针对大数据加载效率问题和数据仓库增量更新的问题,提出了并行加载方案和基于Oracle的MV(Materialized View,物化视图)和CDC(Change Data Capture,变化数据捕捉)的数据增量更新方案,为数据的加载和增量更新提供了一套新的方法和思路。 本文围绕着构建基于工作流引擎的ETL工具而展开.首先介绍了数据仓库、ETL以及工作流、工作流管理系统、工作流引擎、和构建工作流的ETL,工具的意义。接着重描述了基于工作流引擎的:ETL设计的各个模块以及整体架构。在基于工作流引擎的ETL工具中,主要分成工作流引擎模块、ETL任务模块、DAO模块。然后对大数据量的并行加载,设计了基于Oracle数据库的并行机制实现并行加载以及基于工作流的大数据并行加载;针对实际数据分析项目,设计了基于Oracle的MV和CDC的增量数据更新。最后对本文研究方向进行总结和展望。
其他文献
PID控制器因结构简单、容易实现,具有较强的鲁棒性,因而被广泛应用于各种工业过程控制中。作为一种广泛的控制规律,PID控制在相当长的一段时间内,并没有因为各种先进控制算法的出
在马尔可夫切换系统中,存在着模型不确定、信息不确定和非线性等特性,此类特性耦合在一起将使得系统的状态估计问题变得更加复杂。为此,本文以临近空间高超声速目标跟踪和地
空战威胁评估是指如何评判、估计敌方目标对我方进行侵袭成功的可能性及可能造成破坏的程度。空战威胁评估的目的在于提高决策的正确性,有效地提高自身生存概率。因此,研究空
智能机器人正成为继工业机器人后的另一发展热点,作为智能机器人研究的载体,足球机器人的研究现状一定程度上代表并顺应着机器人智能化的发展方向。全自主足球机器人作为足球
图像和信号处理中存在着大量包含模型和参数等不确定性因素的求解问题,如何确定这些不确定性参数一直以来是该领域不可回避的难点问题之一。本论文针对这些问题建立概率图模型
医院放射科信息化是医院整体信息化构建和实现的重要组成部分,不仅涉及影像存档及通讯系统(PACS)和放射学信息系统(RIS) ,同时还必须面对来自不同设备提供商的影像采集和处理设
定位问题是在室内完成飞行器实验的关键之一。在室外环境下飞行器一般采用INS/GPS组合导航系统实现定位。但是在室内环境下不能接收到GPS信号,所以为微小型飞行器研制一套室内
随着信息技术的发展,在企业生产过程中要求将生产过程监控系统和信息管理系统融为一体,实现信息一体化集成和资源共享,提高企业现代化管理水平。但企业信息管理与生产过程之
目前,织机向着高速化、智能化方向发展,无梭织机也越来越占主导地位,开发中高档织机控制系统是当前纺织机械领域的重要课题。织机的电子送经和卷取控制系统是中高档织机控制
在短信息高速发展的时代,人们在享受短信息带来便捷、低廉通信的同时,也带来了信息安全方面的问题。规范短信市场,净化短信内容,加强对短信服务商的监管,除了有相关的政策法