论文部分内容阅读
数据仓库技术是近年来迅速发展的一项数据存储管理技术,由于数据仓库技术具有高度的数据集成性并能良好的处理异构型数据等特点,使其迅速受到了很多行业的青睐。它的面世极大的推进了决策分析领域的进一步的技术优化,并且改善了传统数据库技术的一些缺陷,使数据具有更好的集成性、稳定性并且兼备传统数据库的优点。将数据仓库技术应用到决策分析领域,可以很好的从大量的数据信息中提取出决策所需的有价值的数据,通过数据分析,更快捷的做出相应的决策。因此,在决策分析领域很有必要采用数据仓库技术。本课题研究的数据提取与数据转换技术是建立数据仓库过程中获取原始数据并对数据进行加工过程的关键部分。数据提取与数据转换技术基于数据仓库ETL(Extract, Transform, Load)层中的“抽取”与“转换”两部分,“抽取”是访问数据库系统等外部数据源,并从中将数据仓库所需的数据提取出来,“转换”的过程是将“抽取”步骤所得的来源于不同数据源的异构的数据信息,通过数据仓库预定的模式,转化成为具有统一的数据格式的数据,从而便于数据仓库对这些数据进行具体的数据操作。本课题的研究过程中设计了实现数据提取与数据转换的算法及相关研发框架图,将数据提取与数据转换功能设计为访问数据源模块、从数据源中提取数据模块、数据格式转换模块等三个功能模块来实现。访问数据源模块通过CDatabase基类结合接口连接外部数据源,通过统一的数据访问接口来访问不同的数据源,实现对外部数据源的访问。从数据源中提取数据模块利用过程语言和调用接口方法来提取数据源中的数据,访问数据源之后,从数据源中获取所需的数据信息,包括数据表名、数据表中的列名及数据表中的详细信息。数据格式转换模块结合VC++技术与数据仓库技术完成对提取的异构数据的结构转换,将来源于数据源的异构的原始数据转化为具有统一格式的适用于数据仓库的数据,如浮点型数据、时间型数据等,在数据存储到数据仓库前,先进行数据格式的转化,赋予这些数据统一的数据格式。便于数据仓库对数据进行访问。通过这三个功能模块的实现串联了数据仓库与外部数据源,并支持连接SQL、MDB、Oracle等多种类型数据库系统,完成了数据仓库从外部数据源进行数据提取并转换的功能流程,以便于进行后续的存储、查询、分析等操作。本课题研究的数据提取与数据转换技术可在Windows环境下完成数据仓库从存储原始数据的应用系统中提取面向主题的所需数据集合,并对数据进行合理加工以适应数据仓库的要求,对企业构建数据仓库进行决策分析过程中的整理核心数据并进行数据分析具有帮助作用,以加快决策分析的工作效率,可以良好的应用到采用数据仓库技术的行业决策分析领域。