一个ETL系统的设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户：Ling_Hun

【摘要】

：

对当今社会的各行各业来说，数据仓库与信息分析已经不再是个新鲜的概念了，有越来越多的企业将数据仓库与信息分析作为自己快速发展的利器。而信息分析系统是由一系列具有强相关

【作者】

：

陈苏

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2005年期

【关键词】

：

数据仓库信息分析 ETL系统数据存储系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

对当今社会的各行各业来说，数据仓库与信息分析已经不再是个新鲜的概念了，有越来越多的企业将数据仓库与信息分析作为自己快速发展的利器。而信息分析系统是由一系列具有强相关性的子系统构成的，从数据库管理系统，到数据抽取、转换、装载系统，到数据仓库管理系统，到数据分析和挖掘系统，再到前端报表展示系统，而其中处于中间位置的，起到数据流的承上启下作用的就要属数据抽取、转换、装载（ETL）系统了。 ETL系统的主要作用就是将各个数据源中的数据按照一定的要求抽取出来，然后经过数据清洗与格式转换，然后再将结果数据存放入目标数据存储系统（往往是数据仓库系统），所以ETL系统完成任务的质量高低直接影响到其后的数据分析工作。正因为ETL系统在信息分析领域中的重要地位，使得ETL系统变得炙手可热起来，已经有越来越多的国外软件供应提供商加入到开发ETL系统的队伍中来，但是在国内ETL系统的研发才刚刚起步。本文则主要研究了如何建立一个ETL系统。首先，本文对ETL为何作了解释，然后分析了当前存在的ETL系统的优势与不足并明确了本ETL系统的目标，接着着重阐述了实现本系统的几个关键问题，再接着描述了本系统的功能设计与界面设计，最后通过一个实验来检验系统第一阶段的开发成果。本文的主要特色如下：（1）系统的元模型遵循CWM标准由于构成信息分析系统的诸多子系统是相互依存的，所以在不同的子系统之间就需要有这样一个机制使得它们之间能够相互理解对方的数据的含义。为了实现这一目标，公共仓库元模型（CWM）被提了出来，并逐渐成为信息分析软件行业领域中的一个元模型标准。为了能与市场上的其它信息分析系统相融，本系统将遵循CWM标准。为了实现这种标准，不仅本系统中核心类都直接或间接继承于CWM中定义的标准类，而且作为信息传递的XML文档的格式也遵循CWM规定的要求。这部分的内容将在第五章和第八章作详细介绍。（2）系统的数据清洗策略前面提到了，ETL的主要任务就是对数据的抽取（Extract）、转换（Transform）和装载（Load），紧接着在ETL任务之后要进行的数据一些数据的分析挖掘处理了，而我们知道如果想要在数据分析中取得好的效果，就必须有高质量的数据作为基础。为了保证经过ETL处理的数据具有较高的质量，就必须在ETL中对数据清洗作足文章，可是当前的ETL系统只对数据的转换方式比较在意，而数据清洗方面却做得较少。针对这一问题，本系统提出了一中基于替换形式的数据清洗策略。这部分的内容将在第六章作详细介绍。（3）更适合国内企业使用的ETL系统当前存在的ETL系统都是由国外的软件供应商开发的，在国内还没有成形的商业化ETL系统，而国外的系统又普遍存在费用昂贵、操作复杂、提供了很多几乎不被使用的功能等缺陷。所以本系统的目标之一就是要形成一个国产的、价格便宜的、使用简单的、满足国内中小型企业基本功能要求的ETL产品。当然为了与现存的国外ETL系统抗衡，在本系统中还实现了一些被国外ETL系统忽略了的功能，例如：用户在设计ETL任务时可以随时获得数据流经过某一清洗转换后的状态变化，以缩短任务开发过程；在转换时根据用户需要检测并清除或合并重复记录；对数据源中数据进行清洗后，用“干净”的数据替代数据源中的原始数据。

其他文献

自愈系统中的动态适配研究

随着计算机技术的不断发展，软件系统日益庞大，结构复杂，这使得软件系统的更新和维护越来越困难，以往的系统大都需要系统管理员去发现问题，并手工干预和管理，效率低下、维护费用巨大

学位

自愈系统动态适配组件依赖性XML文件热交换

基于刺绣图形的特征识别和模型重建中若干技术的研究

目前图形特征的模型重建是一项较新的研究领域。在CAD系统结构与CAM系统进行广泛的系统集成化研究的时候，图形特征识别技术逐渐受到重视和研究。图形特征识别是指从已建立的点

学位

刺绣图形图形特征识别刺绣CAD系统模型重建软件

基于新型机器学习技术的图像检索

基于内容的图像检索（CBIR）力图使用图像的视觉内容，在大规模图像库中寻找用户感兴趣的图像。从20世纪90年代开始，CBIR成为一个活跃的研究领域。CBIR面临的最大困难是图像的低层视

学位

机器学习多示例学习主动学习半监督学习图像检索

供应链管理系统模型研究及其物流系统实现

敏捷制造是21世纪国际竞争的主要形式，是企业在无法预测的持续、快速变化的竞争环境中生存、发展并扩大竞争优势的一种新的经营管理和生产组织模式.供应链管理是实施敏捷制造

学位

供应链管理系统物流系统资源优化利用电子商务供应链管理软件

网络课件在线开发与管理系统的设计与实现

现代远程教育的蓬勃发展对远程教育资源的建设提出了越来越紧迫的要求。2000年教育部制定的《现代远程教育资源建设技术规范》明确的定义了现代远程教育建设的核心是教学资源

学位

远程教育Web开发网络数据库网络课程网络教育

基于COM的GIS中海量影像数据组织和显示的研究

当前的地理信息系统中,矢量数据虽然表达地理数据的精度较高,图形输出美观,数据量小,拓扑关系描述完整.但是矢量数据结构复杂、数据更新速度慢、现势性不强.航空、航天技术的

学位

地理信息系统ComGIS数据分块影像金字塔海量影像数据中间件技术

客户评分体系建模及其在电信行业中的应用

本文重点研究了通过面向对象方法进行客户评分体系建模的问题，对客户评分体系的现实世界过程进行了分析；使用UML进行了具体的建模描述，包括客户评分体系中的静态模型：包括ACTOR、

学位

电信企业客户评分体系统一建模语言体系建模

基于定性的作战模拟系统动力学建模及分析

本文提出了一种新的基于定性的作战模拟系统动力学建模方法，利用系统动力学的方法，结合定性仿真、定量仿真技术，建立系统动力学作战模型，来分析在作战中出现的复杂性、交互性

学位

作战模拟系统定性仿真系统动力学系统仿真

基于复杂网络理论的P2P覆盖网络模型研究

随着P2P技术的迅猛发展、需求与应用的不断拓展、用户数量的急剧增加以及交互方式的日化,P2P系统开始具有高度动态性和复杂性特征,是一个典型的复杂网络,其网络拓扑己被证实

学位

复杂网络理论P2P技术覆盖网络模型拓扑特征资源分布

MDA模型转换及支撑工具的研究

随着计算机技术的飞速发展，尤其是网络技术的发展，出现了很多复杂的分布式应用系统。为了简化异构环境下分布式应用的集成和互操作，自上世纪90年代开始，工业界先出现了许多功能强

学位

用户界面编辑工具模型驱动体系结构软件开发

一个ETL系统的设计与实现

与本文相关的学术论文