论文部分内容阅读
[摘 要] 元数据的英文名称是“Metadata”,它是“关于数据的数据”。元数据实际上是解决最终用户在什么时间、地点以及以何种方式使用数据仓库的问题。本文讨论了数据仓库系统中元数据的内容、功能及其管理和维护。在Microsoft Metadata Service 和Open Information Model (OIM ) 模型的基础上, 给出了一个元数据管理和维护系统的实例。
[关键词] 元数据 最终用户 数据仓库 管理和维护
1、引言:
随着计算机科学技术的发展,数据库技术已经日益成熟,与此同时,数据仓库技术也在飞速发展,它已被应用于企业管理、决策支持、市场分析等多个方面。与此同时,随着市场竞争的日益激烈,企业需要利用现有的数据,进行分析和推理,为企业的决策提供依据企业积累了大量的内部和外部数据,然而如何从这些数据中挖掘出有用的信息进行预测分析已越来越成为技术人员和决策者关心的问题。为了更好的管理和决策,许多企业选择了数据仓库(Data Warehouse)作为决策支持系统(Decision Support System,DSS)的核心,尤其近年来兴起的商业智能(BI),更是糅合了数据仓库、DSS、数据挖掘和人工智能(AI)等多种技术,实现了商业管理的集成化和智能化、网络化。数据仓库是支持管理决策过程的、面向主题的、集成的、不可更新的且随时间不断变化的数据集合。利用数据仓库,对源数据经过提取、转换、加载形成统一的数据格式,再利用数据挖掘和OLAP分析工具为决策者提供所需的信息。然而作为数据仓库重要组成部分的元数据,却没有得到应有的重视。元数据是关于数据的数据,在数据仓库中,元数据扮演着重要的角色。如何构建元数据库及实现高效的元数据管理,在一个成功的数据仓库系统中必不可少。正是由于有了元数据,DSS分析员才能有效地利用数据仓库。
2.数据模型
2.1什么是元数据
元数据模型在数据仓库的设计中起着十分重要的作用,它主要承担对数据仓库的数据和环境进行描述的角色,是整个数据仓库的核心。也可以说,元数据是关于数据的数据。它使得最终用户能够使用数据仓库。元数据使得用户可以掌握数据的历史情况,如:
1)数据从哪里来?
2)流通时间有多长?
3)更新频率是多大?
4)数据元素的含义是什么?
5)对它进行了哪些计算、转化和刷选等。
在需求不确定的情况下,在瞬间万变的商业环境下,元数据可以更好的支持需求的变化,降低项目风险。事实上,元数据贯穿于建立数据仓库的整个过程之中,是数据仓库构建过程中的一个重要部分,起着至关重要的作用。
2.2元数据的分类及组成
数据仓库中的元数据根据其使用对象和应用范围不同,可分为不同的类型, 如商业元数据、数据库元数据和应用元数据3种。在构建元数据库时将其分为技术元数据(Technical Metadata)和商业元数据(Business Metadata)。技术元数据是关于数据仓库系统技术细节的元数据;商业元数据是技术元数据的一个辅助,它可以帮助用户在数据仓库中寻找所需商业信息,也有助于用户正确方便地使用数据仓库系统,它主要定义了介于使用者和仓库系统之间的语义关系。商业元数据将商业用户和技术元数据有机的联系起来。元数据以概念、主题、集团、或层次等形式建立了数据仓库中的信息结构。
元数据是抽象的数据, 但元数据的重要性也正体现在其所包含的信息中。例如,元数据用作目录,可以帮助DSS分析者对数据仓库的内容定位;当数据由操作环境到数据仓库环境映射时,作为数据映射指南;对于用在当前细节数据与低度综合的数据之间及低度综合的数据和高度综合的数据之间的汇总算法。如果没有元数据,数据仓库中的数据是完全孤立着的,元数据正如一座桥梁将它们联系起来。
3.元数据的标准化
没有规矩不成方圆。为了更好地发挥元数据在数据仓库中的作用,必须对其进行有效的管理,而一个统一的元数据标准是元数据管理的前提。但目前缺乏全行业内统一的标准。在这种情况下,随着元数据联盟MDC(meta data coalition)的开放信息模型OIM(open information model)和OMG组织的公共仓库模型CWM(common warehouse model)标准的逐渐完善,以及MDC和OMG组织的合并,将为数据仓库厂商提供统一的标准,从而为元数据管理铺平道路。Microsoft公司数据仓库系统体系结构Microsoft Data Warehousing Framework框架的核心之一就是实现元数据的Open Information Model和元数据管理工具Microsoft Repository。Microsoft Repository 主要包括两个部分:第一部分包括一组Microsoft ActiveX接口,利用这些接口,可以定义、储存和访问元数据;第二部分包括了一个元数据存储引擎,它提供了一套元数据的存储机制。Microsoft及其它厂商可使用基于COM或CORBA的结构按照Microsoft的XML Encoding文件定义格式来引入和导出仓库中的元数据。
4.元数据的管理和维护
在数据仓库中元数据并不是一成不变的,例如,某一个数据源的表结构发生变化时,为了保持仓库中数据一致性和连贯性,必须相应的修改元数据库。一个设计良好的数据仓库系统,必须能跟踪这些变化,并能实现元数据收集和维护的自动化。元数据的管理和维护对保持元数据的有效性和一致性是非常重要的,它涉及到如下几个方面:元数据的所有权(谁有权构造、刷新和更新元数据);元数据的共享;记录元数据的变化历史;如何通过网络有效地交换元数据;元数据的存储;如何通过不同的工具访问元数据;如何使分布式元数据更能适应企业的商业环境等等。为了充分使用和共享存在于不同存储工具中的分布式元数据,必须对这些元数据进行集成和管理,从而为用户提供一致的和可理解的元数据。各个不同的元数据库之间要提供统一的用户接口,以便元数据的共享和交换。
5.元数据库的实现
元数据对数据仓库的重要作用,只有在元数据得到了正确的使用后,才能充分地体现出来。在实现的基于电子商务的数据仓库系统中,元数据管理模块是基于前面所提到的开放数据模型Open Information Model、元数据管理工具Microsoft Repository和Microsoft Meta DataServices,并在Microsoft SQL Server 2000的平台上实现的。使用SQL Server 2000MetaData Services作为后台,使用Delphi来实现前台的查询报表并用XML文件格式作为数据通道。Meta Data Services是微软提供的集成式元数据管理工具,使用它,可以较容易的实现元数据的构造和管理。也可以使用Meta Data Services来实现基于元数据的应用及构建和扩展作为共享元数据的信息模型。因为XML支持基于OIM的元数据,使用XML格式来导入、导出、发布和共享元数据。例如,使用XML文档在库A和库B之间交换元数据。
在开发过程中,考虑到元数据在整个数据仓库系统中的作用,可以从2个方面来实现:一个方面是建立元数据模型。元数据主要用来存储企业的业务模型和数据模型,实现时关键的问题就是如何定义这些模型,使其具有良好的通用性、可扩展性和可重用性。这里使用OIM来构造元数据,同时要保证元数据的收集和更新要自动化,元数据库能够基于事件驱动自动刷新。另一个方面就是元数据管理系统。元数据管理系统主要完成两部分的工作,一是维护元数据的物理存储,尤其是分布式元数据的存储;其二是提供定义、修改和访问元数据的接口和参数,这是非常重要的一部分。可以保证新的应用程序能够容易集成,同时因为整个数据仓库系统的开发过程是螺旋式的,随着时间的推移,会有新的需求产生,必须保证现有平台能够适应这种扩展性,所以必须提供多个扩展接口。
6.结语
随着信息技术的迅速发展和应用广度、深度的日益扩大,导致数据指数级的增加。然而惊人的数据量以及无法判断数据的有效性,导致了“数据太多,信息太少”的尴尬局面。讨论了数据仓库实现过程中非常重要的一环,元数据的实现与维护。元数据就像一座桥梁,将数据仓库中的数据和用户有机的结合了起来,它不仅在整个数据仓库系统,而且在整个决策支持系统中,都起着非常重要的作用。
参 考 文 献
[1]Inman W H. Building the Data Warehouse[M].New York: John Wiley & Sons Inc.,1996.
[2]JillDyche. Data Warehouse, Metadata and Middle ware [J]. EA I Journal,2000(9):71~76.
[3]夏红霞,曹献媛,钟珞.基于数据仓库的数据采掘技术应用[J].微机发展,2000,20(1):43~45.■
[关键词] 元数据 最终用户 数据仓库 管理和维护
1、引言:
随着计算机科学技术的发展,数据库技术已经日益成熟,与此同时,数据仓库技术也在飞速发展,它已被应用于企业管理、决策支持、市场分析等多个方面。与此同时,随着市场竞争的日益激烈,企业需要利用现有的数据,进行分析和推理,为企业的决策提供依据企业积累了大量的内部和外部数据,然而如何从这些数据中挖掘出有用的信息进行预测分析已越来越成为技术人员和决策者关心的问题。为了更好的管理和决策,许多企业选择了数据仓库(Data Warehouse)作为决策支持系统(Decision Support System,DSS)的核心,尤其近年来兴起的商业智能(BI),更是糅合了数据仓库、DSS、数据挖掘和人工智能(AI)等多种技术,实现了商业管理的集成化和智能化、网络化。数据仓库是支持管理决策过程的、面向主题的、集成的、不可更新的且随时间不断变化的数据集合。利用数据仓库,对源数据经过提取、转换、加载形成统一的数据格式,再利用数据挖掘和OLAP分析工具为决策者提供所需的信息。然而作为数据仓库重要组成部分的元数据,却没有得到应有的重视。元数据是关于数据的数据,在数据仓库中,元数据扮演着重要的角色。如何构建元数据库及实现高效的元数据管理,在一个成功的数据仓库系统中必不可少。正是由于有了元数据,DSS分析员才能有效地利用数据仓库。
2.数据模型
2.1什么是元数据
元数据模型在数据仓库的设计中起着十分重要的作用,它主要承担对数据仓库的数据和环境进行描述的角色,是整个数据仓库的核心。也可以说,元数据是关于数据的数据。它使得最终用户能够使用数据仓库。元数据使得用户可以掌握数据的历史情况,如:
1)数据从哪里来?
2)流通时间有多长?
3)更新频率是多大?
4)数据元素的含义是什么?
5)对它进行了哪些计算、转化和刷选等。
在需求不确定的情况下,在瞬间万变的商业环境下,元数据可以更好的支持需求的变化,降低项目风险。事实上,元数据贯穿于建立数据仓库的整个过程之中,是数据仓库构建过程中的一个重要部分,起着至关重要的作用。
2.2元数据的分类及组成
数据仓库中的元数据根据其使用对象和应用范围不同,可分为不同的类型, 如商业元数据、数据库元数据和应用元数据3种。在构建元数据库时将其分为技术元数据(Technical Metadata)和商业元数据(Business Metadata)。技术元数据是关于数据仓库系统技术细节的元数据;商业元数据是技术元数据的一个辅助,它可以帮助用户在数据仓库中寻找所需商业信息,也有助于用户正确方便地使用数据仓库系统,它主要定义了介于使用者和仓库系统之间的语义关系。商业元数据将商业用户和技术元数据有机的联系起来。元数据以概念、主题、集团、或层次等形式建立了数据仓库中的信息结构。
元数据是抽象的数据, 但元数据的重要性也正体现在其所包含的信息中。例如,元数据用作目录,可以帮助DSS分析者对数据仓库的内容定位;当数据由操作环境到数据仓库环境映射时,作为数据映射指南;对于用在当前细节数据与低度综合的数据之间及低度综合的数据和高度综合的数据之间的汇总算法。如果没有元数据,数据仓库中的数据是完全孤立着的,元数据正如一座桥梁将它们联系起来。
3.元数据的标准化
没有规矩不成方圆。为了更好地发挥元数据在数据仓库中的作用,必须对其进行有效的管理,而一个统一的元数据标准是元数据管理的前提。但目前缺乏全行业内统一的标准。在这种情况下,随着元数据联盟MDC(meta data coalition)的开放信息模型OIM(open information model)和OMG组织的公共仓库模型CWM(common warehouse model)标准的逐渐完善,以及MDC和OMG组织的合并,将为数据仓库厂商提供统一的标准,从而为元数据管理铺平道路。Microsoft公司数据仓库系统体系结构Microsoft Data Warehousing Framework框架的核心之一就是实现元数据的Open Information Model和元数据管理工具Microsoft Repository。Microsoft Repository 主要包括两个部分:第一部分包括一组Microsoft ActiveX接口,利用这些接口,可以定义、储存和访问元数据;第二部分包括了一个元数据存储引擎,它提供了一套元数据的存储机制。Microsoft及其它厂商可使用基于COM或CORBA的结构按照Microsoft的XML Encoding文件定义格式来引入和导出仓库中的元数据。
4.元数据的管理和维护
在数据仓库中元数据并不是一成不变的,例如,某一个数据源的表结构发生变化时,为了保持仓库中数据一致性和连贯性,必须相应的修改元数据库。一个设计良好的数据仓库系统,必须能跟踪这些变化,并能实现元数据收集和维护的自动化。元数据的管理和维护对保持元数据的有效性和一致性是非常重要的,它涉及到如下几个方面:元数据的所有权(谁有权构造、刷新和更新元数据);元数据的共享;记录元数据的变化历史;如何通过网络有效地交换元数据;元数据的存储;如何通过不同的工具访问元数据;如何使分布式元数据更能适应企业的商业环境等等。为了充分使用和共享存在于不同存储工具中的分布式元数据,必须对这些元数据进行集成和管理,从而为用户提供一致的和可理解的元数据。各个不同的元数据库之间要提供统一的用户接口,以便元数据的共享和交换。
5.元数据库的实现
元数据对数据仓库的重要作用,只有在元数据得到了正确的使用后,才能充分地体现出来。在实现的基于电子商务的数据仓库系统中,元数据管理模块是基于前面所提到的开放数据模型Open Information Model、元数据管理工具Microsoft Repository和Microsoft Meta DataServices,并在Microsoft SQL Server 2000的平台上实现的。使用SQL Server 2000MetaData Services作为后台,使用Delphi来实现前台的查询报表并用XML文件格式作为数据通道。Meta Data Services是微软提供的集成式元数据管理工具,使用它,可以较容易的实现元数据的构造和管理。也可以使用Meta Data Services来实现基于元数据的应用及构建和扩展作为共享元数据的信息模型。因为XML支持基于OIM的元数据,使用XML格式来导入、导出、发布和共享元数据。例如,使用XML文档在库A和库B之间交换元数据。
在开发过程中,考虑到元数据在整个数据仓库系统中的作用,可以从2个方面来实现:一个方面是建立元数据模型。元数据主要用来存储企业的业务模型和数据模型,实现时关键的问题就是如何定义这些模型,使其具有良好的通用性、可扩展性和可重用性。这里使用OIM来构造元数据,同时要保证元数据的收集和更新要自动化,元数据库能够基于事件驱动自动刷新。另一个方面就是元数据管理系统。元数据管理系统主要完成两部分的工作,一是维护元数据的物理存储,尤其是分布式元数据的存储;其二是提供定义、修改和访问元数据的接口和参数,这是非常重要的一部分。可以保证新的应用程序能够容易集成,同时因为整个数据仓库系统的开发过程是螺旋式的,随着时间的推移,会有新的需求产生,必须保证现有平台能够适应这种扩展性,所以必须提供多个扩展接口。
6.结语
随着信息技术的迅速发展和应用广度、深度的日益扩大,导致数据指数级的增加。然而惊人的数据量以及无法判断数据的有效性,导致了“数据太多,信息太少”的尴尬局面。讨论了数据仓库实现过程中非常重要的一环,元数据的实现与维护。元数据就像一座桥梁,将数据仓库中的数据和用户有机的结合了起来,它不仅在整个数据仓库系统,而且在整个决策支持系统中,都起着非常重要的作用。
参 考 文 献
[1]Inman W H. Building the Data Warehouse[M].New York: John Wiley & Sons Inc.,1996.
[2]JillDyche. Data Warehouse, Metadata and Middle ware [J]. EA I Journal,2000(9):71~76.
[3]夏红霞,曹献媛,钟珞.基于数据仓库的数据采掘技术应用[J].微机发展,2000,20(1):43~45.■