论文部分内容阅读
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)就是负责从多个数据源抽取,转换并装载数据到数据仓库的过程,它是数据仓库、数据挖掘以及商业智能等技术的基石。数据仓库能否在决策分析时候给予足够的支持,ETL过程方案是关键所在。有关资料显示,ETL过程实施在数据仓库建设过程中占用60%到80%的资源。文献和个人经验告诉我们,关于ETL过程的主要问题是复杂性,可用性和价格。
为了解决这些问题,我们提出一种基于SQL的ETL过程方案。有别于传统的基于专用引擎的ETL过程方案,该方案基于SQL标准语言,依靠数据库引擎处理ETL任务。同时利用ETL过程以数据为中心,基于脚本的优点,引进活动元模型概念。最后本文以攀钢统计系统建设为背景,详细阐述了该方案在钢铁企业中的应用过程。
本文中的所有功能模块都具有相应模型,本课题主要的研究工作是:设计了一种基于SQL的ETL过程方案,并将多维数据建模方法和活动元模型应用在该方案中。多维数据建模方法是人们在追求可理解和高性能的数据库设计过程中自然形成的,而活动元模型为ETL过程提供了一个概念和逻辑抽象,它们是ETL过程设计和开发过程中的关键技术,是基于SQL的ETL过程方案的一部分。
本文实现了该ETL方案所有相关功能模块。对提到的相关模块提供了详细的算法流程,并将其成功应用于攀钢统计系统开发。最后本文对系统相关部分进行了运行情况统计与性能分析。