数据仓库中ETL技术的应用研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:cumt12791
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着数据库技术的应用和发展,人们尝试对数据库中数据进行再加工,形成一个综合的、面向分析的环境,以更好地支持决策分析,从而形成了数据仓库(Data Warehouse,简称DW)。数据仓库的重点与要求是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析和决策支持,为后续的数据挖掘和知识发现提供良好的数据环境。在数据仓库的构建中,传统上作业量最大、日常运行问题最多的是把业务数据库中的数据抽取(Extract)、转换(Transform)和装载(Load)到数据仓库的工作,即所谓ETL的过程。其中,数据抽取是指从不同的网络、不同的操作平台、不同的数据库中抽取数据;数据转换指包括数据类型的转换、字段的合并、拆分和映射等的工作;数据装载是指把转换后的数据加载到目标数据库中。 本论文以广州市交警信息查询与短信服务为项目背景,设计并实现了数据ETL系统,着重研究ETL过程中的增量数据抽取技术和异构数据转换方法。 本文首先介绍ETL技术的相关理论和基本概念。针对传统数据集成系统的不足,提出一种改进的三层结构的数据集成系统。 在增量数据抽取技术的研究中,分析了目前几种增量数据抽取技术的工作原理,指出它们的优缺点和适用范围,并从多个方面对这些抽取技术做了比较。为了提高抽取效率,减少对应用系统的实施和维护工作量,本文提出一种基于触发器和增量控制表的数据抽取方法。 在异构数据转换方法的研究中,介绍了几种数据转换方法的工作原理,综合运用JDBC、XML和元数据技术提出一种可行的数据转换方案。该方案利用JDBC的SQL类型作为公共数据类型,解决异构数据源数据类型不统一的问题。以XML文档作为中间存储介质,缓存中间处理结果。元数据则保证系统能够按照业务规则进行数据转换。该方案可以很好地解决数据ETL过程中常见的转换问题。 在系统实现方面,充分运用面向对象技术的继承、多态的特性,将设计模式的思想大量地应用于系统的设计中,使系统架构清晰,具有良好的扩展性。
其他文献
流量工程通过对资源的合理配置和对路由过程的有效控制使网络资源能够获得最优利用,从而大大改善网络的各项QoS指标。所以,流量工程为IP网络的QoS实现提供了有力保障。为了有效
近年来,随着科技发展水平的不断提高,身份认证已经成为人们日常生活中不可或缺的一个环节。传统的身份认证方式存在着诸多问题,如证件容易丢失和伪造、密码容易记错和遗忘等,因此
学位
在信息技术飞速发展的今天,多媒体通信已成为人类新兴的交流手段。其中,携带着巨大信息量的数字视频在信息社会中发挥着越来越重要的作用。由于计算机技术、通信技术和微电子
未登录词中的命名实体识别是自然语言处理中的一项重要的基础性问题,信息检索、信息抽取、问答系统、机器翻译等领域都对命名实体的识别有很高的要求。命名实体在实际语料中出
学位
HIFU,HighIntensityFocusedUltrasound,高强度聚焦超声,是重要的医用超声研究和应用领域。相控阵HIFU是该领域被广泛关注的热点,本文的核心在于相控阵HIFU电子系统的实用化技术。
学位
1 研究背景rn铁路运输自动化进程始于数十年前.列车运行自动化主要指驾驶功能的自动化,如今已经通过连续式列车自动控制系统(LZB)和自动驾驶与制动控制系统(AFB)实现.rn
期刊
1 项目简介rn2015 年 — 2016 年,德国铁路股份公司(Deutsche Bahn AG)对基于建筑信息模型(BIM)的数字化规划方法的需求大幅增加,于是其意识到BIM技术的应用将不仅限于交通设
期刊
苏云金芽胞杆菌(Bacillus thuringiensis,Bt)是一种广泛分布的革兰氏阳性细菌,在形成芽胞的同时能产生由cry或cyt基因编码的杀虫晶体蛋白(Insecticidal Crystal Proteins,ICP
空间数据的多源性、多语义性、多时空性、多尺度性以及表示方法的多样性等特点造成了不同数据之间的多维异构性,这对空间数据的综合应用及空间信息系统之间的交流造成了极大的