论文部分内容阅读
本文描述了一个数据仓库通用数据析取软件的设计与实现。随着社会的进步和科技的发展,分析决策成为了各行各业的生命线。数据仓库技术凭借其在数据存储与组织结构上的优势为决策支持系统提供强有力的数据支持。本软件将来源数据经过集成、转换、清洗、优化后加载到数据仓库中,保障数据仓库拥有高质量的数据,为决策分析系统能有效地工作奠定基础。 本文第一章阐述本课题的意义并对数据仓库技术进行简要分析;二—六章介绍系统设计开发的思路和实现方法;最后一章进行总结和展望。 本软件采用了三层体系结构,使用COM技术和MTS开发和管理中间层组件。我们将数据的集成、转换、清洁、优化等模块都以COM组件形式进行了封装,形成.DLL文件,这样有利于系统的升级、维护和移植。 本文分析了形形色色的数据析取方法,将其归纳为集成、转换、清洁,并提出有必要对数据进行优化,如数据平滑、规范化等,以期更好地支持数据挖掘。 本软件支持对大部分结构化和半结构化数据的析取,包括各种关系数据库,Excel表格,有分隔符的文本文件,XML文件。特别是对XML文件的析取,是本软件特色之一。我们提出了一种基于规则驱动的XML模式数据到关系模式的转换方法,用于完成对XML数据的析取。 系统将用户定义的析取过程封装为析取包(Package),实现一次定义多次使用。为了提高析取包的执行效率,我们采用了微软的DTS作为传输工具,它大大加快了数据析取的速度。