论文部分内容阅读
随着信息技术的发展,企业为了应对来自市场和同行的挑战,纷纷上马了各种形式管理信息系统(MIS),以求实现企业的信息化。管理信息系统可以规范企业的信息流程,进而影响企业的业务流程,使之朝着更加科学、规范的方向发展,从而大幅提高企业的效率和竞争力。管理信息系统还为企业的决策者和执行者积累了大量的业务数据供其参考。但是随着信息系统的使用,系统所积累的数据也会逐步增加,并超出人们能够根据数据直接进行运用的阶段。数据仓库技术的出现使得人们可以从海量数据中提取有用信息用以支持决策。本文将就如何在企业信息化过程中利用数据仓库技术进行探讨。
一、数据仓库技术
数据仓库最早是由W.H.Inmon在《建立数据仓库》一书中提出的。他对数据仓库的定义是:数据仓库是面向主体的、集成的、稳定的(非易失性的)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。
数据仓库的数据是面向主题的,与传统的数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准,每个主题对应一个宏观的分析领域。数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤。数据仓库最根本的特定是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其他数据库的。数据仓库并不是要取代数据库,它是建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,它是数据库技术的一种应用。
二、数据仓库的应用
1、在数据仓库实施之前应该确定数据仓库的设计目标和需求。根据数据仓库的定义和企业对数据仓库的需要,数据仓库应该具有集成性、适应性、可靠性和开放性的特点。
2、明确数据仓库的主题。主题是一个在较高层次将数据归类的标准,具体說就是确定决策说涉及的范围和所要解决的问题。
3、关系型数据库的设计模型。建模工具的发展为关系型数据库的建模提供了很大的便利。现在比较流行的数据建模工具主要有Rational Rose、ERWIN、Power Designer、Oracle Designer等。这几种建模工具各有自己的特点,在数据建模方法的选用上,笔者倾向于选择IDEF1X方法。它是IDEF系列方法中IDEF1的扩展,在实体联系方法的基础上增加了一些规则,使语义更为丰富。
4、数据仓库的实现技术过程。(1)根据数据仓库的主题确定数据仓库的结构。在设计的过程中要注意保证数据仓库的规范化和体现各元素之间的必要联系。包括以下步骤:首先,定义该主题所需各种数据源的详细情况,包括所在计算机平台、拥有者、数据结构、仓库更新计划等。其次,定义数据抽取规则,以便从每个数据源中抽取所需数据。最后,将一个主题细分为多个业务主题,形成主题表,据此从数据仓库中选出多个数据子集,即数据集市(DataMart)。(2)设计数据抽取、转换于集成模块的设计。该模块的设计主要是完成根据元数据库中的主题定义表、数据源定义、数据抽取规则定义对异地异构数据源进行清理、转换,然后对数据进行重组和集成,装载到数据仓库中目标库的任务。(3)设计数据管理维护模块。该模块可分为数据存储管理和元数据的维护两方面。数据存储管理是根据元数据库所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。更新操作有两种情况,即在仓库的原有数据表中进行某些数据的更新和产生一个新的时间区间的数据,因为汇总数据与数据仓库中的许多信息元素是相关的,必须完整地汇总,这样才能保证全体信息的一致性。
5、确定数据仓库的开发和运行环境。根据数据仓库的规模和企业规模数据仓库的运行环境也会有所不同。一般情况下适当的软硬件配置为:服务器级微机一台,最低内存512M,大容量硬盘(配有外置存储设备),安装WINDOWS 2000 SERVER操作系统,SYABSE Adaptive Server Enterprise 12.0数据库系统(服务器端和客户端同时具备),对外接入业务系统和其他操作系统传过来的数据,对内接入各服务器。
三、数据仓库的深层应用
数据仓库的应用是与联机分析处理以及数据挖掘密切结合的。只有将三者密切的结合在一起才能发挥数据仓库在数据存储和应用上的优势。使用数据仓库数据的工具一般可分为三类:普通的报表查询工具、验证型工具和发掘型工具。而联机分析处理和数据挖掘分别是验证型工具和发掘型工具的代表。因此,在比较成熟的系统中,数据仓库、联机分析处理和数据挖掘往往融为一个以数据仓库为基础、联机分析处理和数据挖掘相辅相成分析数据的模式。其中,数据仓库负责把所需的数据面向主题按有助于联机分析处理和数据挖掘分析的格式进行存储,并对原始数据进行预处理。联机分析处理和数据挖掘则负责从不同的角度和层次对经过初步预处理的数据进行分析,发掘出人们所关心的模式。由于三者都旨在辅助决策,所以人们在此基础上加入模型库、知识库和方法库,从而构建了基于数据仓库+联机分析处理+数据挖掘的决策支持系统。这种模式的决策支持系统成为决策支持系统发展的新模式,因其强大的辅助决策功能而得到了广泛的应用。
本文对在企业信息化建设中数据仓库的应用进行了研究。讨论了数据仓库设计时的需求分析与方案选型。分析了数据仓库设计需求和数据仓库的设计思想,给出了针对大多数企业情况的数据仓库的设计步骤,最后给出了数据仓库开发所需的开发和运行环境。
(作者单位:河南平顶山田庄选煤厂计划科)
一、数据仓库技术
数据仓库最早是由W.H.Inmon在《建立数据仓库》一书中提出的。他对数据仓库的定义是:数据仓库是面向主体的、集成的、稳定的(非易失性的)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。
数据仓库的数据是面向主题的,与传统的数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准,每个主题对应一个宏观的分析领域。数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤。数据仓库最根本的特定是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其他数据库的。数据仓库并不是要取代数据库,它是建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,它是数据库技术的一种应用。
二、数据仓库的应用
1、在数据仓库实施之前应该确定数据仓库的设计目标和需求。根据数据仓库的定义和企业对数据仓库的需要,数据仓库应该具有集成性、适应性、可靠性和开放性的特点。
2、明确数据仓库的主题。主题是一个在较高层次将数据归类的标准,具体說就是确定决策说涉及的范围和所要解决的问题。
3、关系型数据库的设计模型。建模工具的发展为关系型数据库的建模提供了很大的便利。现在比较流行的数据建模工具主要有Rational Rose、ERWIN、Power Designer、Oracle Designer等。这几种建模工具各有自己的特点,在数据建模方法的选用上,笔者倾向于选择IDEF1X方法。它是IDEF系列方法中IDEF1的扩展,在实体联系方法的基础上增加了一些规则,使语义更为丰富。
4、数据仓库的实现技术过程。(1)根据数据仓库的主题确定数据仓库的结构。在设计的过程中要注意保证数据仓库的规范化和体现各元素之间的必要联系。包括以下步骤:首先,定义该主题所需各种数据源的详细情况,包括所在计算机平台、拥有者、数据结构、仓库更新计划等。其次,定义数据抽取规则,以便从每个数据源中抽取所需数据。最后,将一个主题细分为多个业务主题,形成主题表,据此从数据仓库中选出多个数据子集,即数据集市(DataMart)。(2)设计数据抽取、转换于集成模块的设计。该模块的设计主要是完成根据元数据库中的主题定义表、数据源定义、数据抽取规则定义对异地异构数据源进行清理、转换,然后对数据进行重组和集成,装载到数据仓库中目标库的任务。(3)设计数据管理维护模块。该模块可分为数据存储管理和元数据的维护两方面。数据存储管理是根据元数据库所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。更新操作有两种情况,即在仓库的原有数据表中进行某些数据的更新和产生一个新的时间区间的数据,因为汇总数据与数据仓库中的许多信息元素是相关的,必须完整地汇总,这样才能保证全体信息的一致性。
5、确定数据仓库的开发和运行环境。根据数据仓库的规模和企业规模数据仓库的运行环境也会有所不同。一般情况下适当的软硬件配置为:服务器级微机一台,最低内存512M,大容量硬盘(配有外置存储设备),安装WINDOWS 2000 SERVER操作系统,SYABSE Adaptive Server Enterprise 12.0数据库系统(服务器端和客户端同时具备),对外接入业务系统和其他操作系统传过来的数据,对内接入各服务器。
三、数据仓库的深层应用
数据仓库的应用是与联机分析处理以及数据挖掘密切结合的。只有将三者密切的结合在一起才能发挥数据仓库在数据存储和应用上的优势。使用数据仓库数据的工具一般可分为三类:普通的报表查询工具、验证型工具和发掘型工具。而联机分析处理和数据挖掘分别是验证型工具和发掘型工具的代表。因此,在比较成熟的系统中,数据仓库、联机分析处理和数据挖掘往往融为一个以数据仓库为基础、联机分析处理和数据挖掘相辅相成分析数据的模式。其中,数据仓库负责把所需的数据面向主题按有助于联机分析处理和数据挖掘分析的格式进行存储,并对原始数据进行预处理。联机分析处理和数据挖掘则负责从不同的角度和层次对经过初步预处理的数据进行分析,发掘出人们所关心的模式。由于三者都旨在辅助决策,所以人们在此基础上加入模型库、知识库和方法库,从而构建了基于数据仓库+联机分析处理+数据挖掘的决策支持系统。这种模式的决策支持系统成为决策支持系统发展的新模式,因其强大的辅助决策功能而得到了广泛的应用。
本文对在企业信息化建设中数据仓库的应用进行了研究。讨论了数据仓库设计时的需求分析与方案选型。分析了数据仓库设计需求和数据仓库的设计思想,给出了针对大多数企业情况的数据仓库的设计步骤,最后给出了数据仓库开发所需的开发和运行环境。
(作者单位:河南平顶山田庄选煤厂计划科)