论文部分内容阅读
计算机及网络技术的快速发展与应用使企业在各种应用系统下积累了大量的数据资源,它们构成了企业的宝贵财富。今天,越来越多的企业正在构建数据仓库来满足其战略决策需要,因此就必须将这些异构的数据源进行集成。所以,提供一种好的ETL工具是非常有益的工作。利用ETL工具可以对异构数据源中的业务数据.抽取和转换,并将其转载到数据仓库中,为基于数据仓库的决策分析应用提供高质量的数据。本文首先对ETL过程和数据仓库进行了研究,ETL过程包括数据抽取、转换、清洗和加载几个阶段。接着还对ETL过程中很重要的数据映射关系进行了分析研究。然后对传统的ETL工具体系结构进行了分析,针对其开放性差和二次开发不足,提出了基于元数据的三层体系结构,使得ETL过程更加高效、通用和灵活。在对数据追加技术的研究中,分析了目前比较流行的几种追加技术并分析了它们的优缺点,如:基于快照差分算法的数据追加技术、基于日志分析的数据追加技术、基于触发器的数据追加技术、基于时间戳的数据追加技术。通过对数据转换技术的研究,本文提出了一种基于元数据的数据转换方法。将数据的转换阶段单独分离出来,同时提供数据转换重用机制,将那些可以重用的规则保存下来以便于日常增量数据的定时抽取、转换及加载;用户也可以根据自己的需求重新定义数据转换规则,通过这种方式增加了ETL过程的灵活性。最后本文结合钻井数据仓库的实际需求,利用前面的理论研究成果,设计并实现了本钻井数据仓库ETL工具。它为基于元数据的三层体系结构,使用基于元数据的数据转换方法实现了把钻井数据源数据导入到钻井数据仓库里。该工具包括五大模块:元数据管理模块、任务管理模块、数据访问模块、数据追加模块和数据转换加载模块。用户可以利用程序提供的任务配置界面配置数据抽取转换任务,并把它们存储在元数据库中,然后定时调度这些抽取转换任务,利用时间戳数据追加技术实现同常增量数据的加载;如果任务需要变更的时候,用户还可以重新配置该任务。所以,该工具在实现了其专用目的的同时也具有一定的灵活性。