论文部分内容阅读
计算机及网络技术的快速发展与应用使企业在各种应用系统下积累了大量的数据资源,它们构成了企业的宝贵财富。今天,越来越多的企业正在构建数据仓库来满足其战略决策需要,也就必须将这些可能是来自不同软硬件平台、数据模型、乃至地理上分布、管理上自治和模式上异构的数据源进行集成。因此,提供一种好的ETL工具是非常有益的工作。利用ETL工具可以对异构数据源中的业务数据抽取和转换,并将其装载到数据仓库中,其主要作用是对各类业务数据的清理、标准化和汇总,为基于数据仓库的决策分析应用提供高质量的数据。 本文首先分析了国内外ETL工具的研究现状,也对目前主流的ETL工具的结构及特点以及在ETL过程中比较重要的数据转换、数据清洗和元数据等相关问题和理论方法进行了详细分析,然后,以东软股份北京公安信息综合查询系统为背景,提出了一种较通用的ETL工具框架设计模型,在此基础上,使用Java语言实现了一个可根据不同的ETL过程进行灵活配置的ETL系统。 目前ETL工具的转换引擎多使用编写脚本语言的方式来应对复杂的ETL转换,操作复杂,专业性强且不易使用。本文引入了DirectShow的媒体文件处理思想,提出了ETL转换图的设计思路。ETL转换图由若干功能单一的数据处理单元组成,各处理单元根据不同ETL过程的需要进行组合和连接,形成数据处理的流水线,完成ETL过程。转换图可灵活处理复杂的ETL过程。 在具体实现方面,充分运用面向对象语言的继承、多态的特性,将设计模式大量的应用于系统的实现当中,使系统架构清晰,具有良好的扩展性。 最后对系统进行了测试,系统运行平稳,表明使用转换图思想设计的ETL工具可较好的完成数据仓库的ETL过程,具有易于使用,灵活性强的特点。