论文部分内容阅读
随着计算机及网络技术的快速发展,许多行业、单位和部门内部都逐步实现了业务、信息的计算机化管理,开发了大量的软硬件平台各异的应用系统,在各种应用系统下又积累了丰富的数据资源,这些数据资源由于软硬件平台各异、数据模型各异而形成了异构数据。而这些数据资源是企业的宝贵财富,企业单位迫切需要集成这些地理上分布、管理上自治、模式上异构的异构数据源。 本文首先分析了国内外数据集成技术的研究状况,根据当前数据集成技术的优缺点,本课题以福建省电力数据中心项目为背景并根据当前异构数据源的特点,提出基于通用数据访问技术(OLE DB)的ETL系统的体系架构。该ETL系统具有元数据管理、丰富的数据清洗功能、友好的拖拉式用户界面和多线程并发处理等功能。 本文中的所有功能模块都具有相应模型,本课题主要的研究工作和创新点是:设计了ETL元数据库模型、数据缓冲模型、并发规则执行模型、数据转换插件。元数据库模型具有标准的层次架构,模型中的上层实体提供了下层实体的描述,下层实体提供了上层实体的实现,元数据库模型的实现为本系统的数据错误控制、数据质量检测、ETL规则定义的简化奠定了基础;数据缓冲模型的设计适应了数据的多种不定因素,即以相对不变的缓冲格式,克服了数据表的记录数和属性数多变的问题,以统一的字符串形式存放所有数据类型的数据,并为数据转换提供了统一的数据表示形式;并发规则执行模型建立于数据缓冲模型之上,数据缓冲模型的多个子缓冲为多线程并发执行提供了基础,并发规则执行模型提高了系统的性能和吞吐量;软件插件丰富了系统的数据转换功能,用户自定义的数据转换函数可做成插件的形式,在本系统中进行即插即用。 本文实现了ETL系统所有模型,对本文提到的系统模型的大部分功能提供详细的算法流程,并实现了一个ETL原型系统。最后本文对原型系统进行了测试与性能分析。