论文部分内容阅读
随着信息技术的普及和数据库技术的高速发展,企业面临构建数据仓库、集成多种异构数据源、为决策者提供决策支持、提升企业竞争力的需求。元数据是数据仓库的重要组成部分,贯穿于数据仓库系统的创建、维护管理和使用的各个环节之中,对数据仓库系统中的元数据进行有效的管理是决定数据仓库项目成败的关键。由于ETL工具价格昂贵,且手工编码具有较大的灵活性和较强的适应性,大多数据仓库开发商采用了手工编码方式,而手工编码存在的最主要问题就是元数据管理混乱。针对上述问题,本文提出了基于CWM(公共仓库元模型)的ETL元数据管理系统的思想。该系统最主要的特点是关注ETL的数据流程而不是控制流程,清楚地告诉用户数据的来源是什么、经过怎样地转换、得到了哪些数据集,从而帮助用户高效地管理ETL过程。本文首先介绍了ETL的基本概念和处理架构,以及元数据的概念、分类、管理模式和作用。接着分析了CWM的概念、设计原则、元模型框架、关系包、转换包等理论依据。接下来,设计了ETL元数据管理系统功能模块、元模型、元数据库物理模型。最后,研究、设计并实现了基于CWM的ETL元数据管理系统,并对系统WEB框架、总体实现方案以及实现过程中用到的关键技术做了详细的介绍。本文的重点在于设计和研究ETL元数据管理模型,对其原理、元模型设计与实现的相关技术做了一些探索,具有一定的实际应用价值。