论文部分内容阅读
在信息时代,能否拥有及时、准确、全面的信息已经成为衡量一个企业是否具有发展潜力的一个重要指标,数据集成作为企业获取信息的重要方法,负责完成数据从数据源向目标数据库流动,是实现数据集成和共享的重要基础,是构建数据仓库的核心,是决策分析支持系统的前提。 本文设计并实现了数据集成系统,主要研究数据集成中的如下内容:数据集成的体系结构、异构数据的转换方法和异构数据的同步策略。 在数据集成的体系结构研究中,通过对目前传统的数据集成体系结构进行理论研究,分析了其一些缺陷,依据软件工程中分而治之和模块化思想,做出了部分改进,提出了一种改进的三层数据集成体系结构。该体系结构中,将数据集成各个阶段分成三个独立的部分,数据转换逻辑事务被单独分离出来,使得集成更能满足分布环境下系统集成的需求。 在异构数据转换方法的研究中,通过对几种数据转换的方法进行比较分析,提出了一种基于元数据驱动的数据转换方法。在该方法中,将数据集成的各种信息作为元数据资源存储起来,所有的数据转换和清洗都基于元数据进行,同时用户可以向系统注册转换函数,并提供了重用机制使得转换中的一些公共方法和策略能够被重用。 在数据同步策略的研究中,分析了基于快照差分算法的数据同步策略和基于日志检测数据同步策略,通过对基于快照差分算法同步策略中几种快照差分算法进行理论研究及分析,了解掌握了它们的适用范围、处理速度及精度;对于有日志系统支持的数据源的日志检测同步策略,分析了Oracle、SQL Server数据库的日志记录内容,分析了获取增量数据的流程。针对上述策略效率低和复杂等缺陷,并依据数据源对触发器的支持程度和分布网络环境下的一些特性,提出了两种同步策略:一种是基于时间戳和触发器的数据同步策略,在该策略中将时间戳和触发器结合到一起,并将同步监视的对象缩小为字段级,减少了数据的冗余和网络的传输量;另一种是针对数据源不支持触发器的情况提出的基于MD-5算法的数据同步策略,利用MD-5算法对数据记录进行摘要,通过对前后两次摘要的比对,决定数据同步操作,该算法易于实现且运行速度快,减少了数据同步的时间。 在实现系统中,提出了基于公共数据类型的数据类型转换方法,简化了众多的数据类型转换,此外,还解决了大对象类型的问题和一部分冲突问题。