论文部分内容阅读
当今,随着凹印复合生产流程信息化的快速发展,印前的决策作用越来越突出。并且在凹印复合流程中积累了大量内容丰富的数据,这些数据如果用得好的话,将会成为决策的重要因素。对于这些数据处理的最好办法就是进行数据挖掘和多维分析,数据挖掘和多维分析的支撑是数据仓库。而数据仓库需要干净、有效的数据,所以数据在装载到数据集市之前必须进预处理也就是ETL(Extract-Transformation-Loading)过程。虽然当今市场有现有的ETL工具,而且性能良好,但是在普及时因其造价和通用性上却碰到了不少困难。因此,自主研发适合自己业务的ETL工具便成为了企业关注的重点。 本文首先研究了数据仓库和ETL的相关技术,对ETL的原理进行了深入的研究,重点阐述了本ETL系统中数据抽取、数据转换和数据加载三大模块中的方法实现和流程设计。对元数据也进行了一定程度上的研究。结合实际需求开发了一个基于元数据的可配置的ETL系统。该系统分为四大模块:元数据管理模块、数据抽取模块、数据转换模块、数据加载模块。抽取、转换、加载的步骤是分开实现。抽取和转换都有自己独立的中间数据库,日志管理更是很好的解决了模块之间的数据沟通。系统有人性化的操作界面。系统架构层次分明,有利于扩展。 本文的重点不仅仅是在于开发了一套功能软件,而是设计和研发出了一个ETL工具的雏形,从原理、技术以及设计与实现上做了一些探索性的工作。可以说本ETL系统既可以作为一个ETL工具使用,满足一定的需求,也可以作为一个成长中的应用开发平台,供二次开发使用。