关于数据仓库中元数据的研究与应用

来源 :硅谷时代 | 被引量 : 0次 | 上传用户:ziyufenyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要] 元数据的英文名称是“Metadata”,它是“关于数据的数据”。元数据实际上是解决最终用户在什么时间、地点以及以何种方式使用数据仓库的问题。本文讨论了数据仓库系统中元数据的内容、功能及其管理和维护。在Microsoft Metadata Service 和Open Information Model (OIM ) 模型的基础上, 给出了一个元数据管理和维护系统的实例。
  [关键词] 元数据 最终用户 数据仓库 管理和维护
  
  1、引言:
  
  随着计算机科学技术的发展,数据库技术已经日益成熟,与此同时,数据仓库技术也在飞速发展,它已被应用于企业管理、决策支持、市场分析等多个方面。与此同时,随着市场竞争的日益激烈,企业需要利用现有的数据,进行分析和推理,为企业的决策提供依据企业积累了大量的内部和外部数据,然而如何从这些数据中挖掘出有用的信息进行预测分析已越来越成为技术人员和决策者关心的问题。为了更好的管理和决策,许多企业选择了数据仓库(Data Warehouse)作为决策支持系统(Decision Support System,DSS)的核心,尤其近年来兴起的商业智能(BI),更是糅合了数据仓库、DSS、数据挖掘和人工智能(AI)等多种技术,实现了商业管理的集成化和智能化、网络化。数据仓库是支持管理决策过程的、面向主题的、集成的、不可更新的且随时间不断变化的数据集合。利用数据仓库,对源数据经过提取、转换、加载形成统一的数据格式,再利用数据挖掘和OLAP分析工具为决策者提供所需的信息。然而作为数据仓库重要组成部分的元数据,却没有得到应有的重视。元数据是关于数据的数据,在数据仓库中,元数据扮演着重要的角色。如何构建元数据库及实现高效的元数据管理,在一个成功的数据仓库系统中必不可少。正是由于有了元数据,DSS分析员才能有效地利用数据仓库。
  
  2.数据模型
  
  2.1什么是元数据
  元数据模型在数据仓库的设计中起着十分重要的作用,它主要承担对数据仓库的数据和环境进行描述的角色,是整个数据仓库的核心。也可以说,元数据是关于数据的数据。它使得最终用户能够使用数据仓库。元数据使得用户可以掌握数据的历史情况,如:
  1)数据从哪里来?
  2)流通时间有多长?
  3)更新频率是多大?
  4)数据元素的含义是什么?
  5)对它进行了哪些计算、转化和刷选等。
  在需求不确定的情况下,在瞬间万变的商业环境下,元数据可以更好的支持需求的变化,降低项目风险。事实上,元数据贯穿于建立数据仓库的整个过程之中,是数据仓库构建过程中的一个重要部分,起着至关重要的作用。
  2.2元数据的分类及组成
  数据仓库中的元数据根据其使用对象和应用范围不同,可分为不同的类型, 如商业元数据、数据库元数据和应用元数据3种。在构建元数据库时将其分为技术元数据(Technical Metadata)和商业元数据(Business Metadata)。技术元数据是关于数据仓库系统技术细节的元数据;商业元数据是技术元数据的一个辅助,它可以帮助用户在数据仓库中寻找所需商业信息,也有助于用户正确方便地使用数据仓库系统,它主要定义了介于使用者和仓库系统之间的语义关系。商业元数据将商业用户和技术元数据有机的联系起来。元数据以概念、主题、集团、或层次等形式建立了数据仓库中的信息结构。
  元数据是抽象的数据, 但元数据的重要性也正体现在其所包含的信息中。例如,元数据用作目录,可以帮助DSS分析者对数据仓库的内容定位;当数据由操作环境到数据仓库环境映射时,作为数据映射指南;对于用在当前细节数据与低度综合的数据之间及低度综合的数据和高度综合的数据之间的汇总算法。如果没有元数据,数据仓库中的数据是完全孤立着的,元数据正如一座桥梁将它们联系起来。
  
  3.元数据的标准化
  
  没有规矩不成方圆。为了更好地发挥元数据在数据仓库中的作用,必须对其进行有效的管理,而一个统一的元数据标准是元数据管理的前提。但目前缺乏全行业内统一的标准。在这种情况下,随着元数据联盟MDC(meta data coalition)的开放信息模型OIM(open information model)和OMG组织的公共仓库模型CWM(common warehouse model)标准的逐渐完善,以及MDC和OMG组织的合并,将为数据仓库厂商提供统一的标准,从而为元数据管理铺平道路。Microsoft公司数据仓库系统体系结构Microsoft Data Warehousing Framework框架的核心之一就是实现元数据的Open Information Model和元数据管理工具Microsoft Repository。Microsoft Repository 主要包括两个部分:第一部分包括一组Microsoft ActiveX接口,利用这些接口,可以定义、储存和访问元数据;第二部分包括了一个元数据存储引擎,它提供了一套元数据的存储机制。Microsoft及其它厂商可使用基于COM或CORBA的结构按照Microsoft的XML Encoding文件定义格式来引入和导出仓库中的元数据。
  
  4.元数据的管理和维护
  
  在数据仓库中元数据并不是一成不变的,例如,某一个数据源的表结构发生变化时,为了保持仓库中数据一致性和连贯性,必须相应的修改元数据库。一个设计良好的数据仓库系统,必须能跟踪这些变化,并能实现元数据收集和维护的自动化。元数据的管理和维护对保持元数据的有效性和一致性是非常重要的,它涉及到如下几个方面:元数据的所有权(谁有权构造、刷新和更新元数据);元数据的共享;记录元数据的变化历史;如何通过网络有效地交换元数据;元数据的存储;如何通过不同的工具访问元数据;如何使分布式元数据更能适应企业的商业环境等等。为了充分使用和共享存在于不同存储工具中的分布式元数据,必须对这些元数据进行集成和管理,从而为用户提供一致的和可理解的元数据。各个不同的元数据库之间要提供统一的用户接口,以便元数据的共享和交换。
  
  5.元数据库的实现
  
  元数据对数据仓库的重要作用,只有在元数据得到了正确的使用后,才能充分地体现出来。在实现的基于电子商务的数据仓库系统中,元数据管理模块是基于前面所提到的开放数据模型Open Information Model、元数据管理工具Microsoft Repository和Microsoft Meta DataServices,并在Microsoft SQL Server 2000的平台上实现的。使用SQL Server 2000MetaData Services作为后台,使用Delphi来实现前台的查询报表并用XML文件格式作为数据通道。Meta Data Services是微软提供的集成式元数据管理工具,使用它,可以较容易的实现元数据的构造和管理。也可以使用Meta Data Services来实现基于元数据的应用及构建和扩展作为共享元数据的信息模型。因为XML支持基于OIM的元数据,使用XML格式来导入、导出、发布和共享元数据。例如,使用XML文档在库A和库B之间交换元数据。
  在开发过程中,考虑到元数据在整个数据仓库系统中的作用,可以从2个方面来实现:一个方面是建立元数据模型。元数据主要用来存储企业的业务模型和数据模型,实现时关键的问题就是如何定义这些模型,使其具有良好的通用性、可扩展性和可重用性。这里使用OIM来构造元数据,同时要保证元数据的收集和更新要自动化,元数据库能够基于事件驱动自动刷新。另一个方面就是元数据管理系统。元数据管理系统主要完成两部分的工作,一是维护元数据的物理存储,尤其是分布式元数据的存储;其二是提供定义、修改和访问元数据的接口和参数,这是非常重要的一部分。可以保证新的应用程序能够容易集成,同时因为整个数据仓库系统的开发过程是螺旋式的,随着时间的推移,会有新的需求产生,必须保证现有平台能够适应这种扩展性,所以必须提供多个扩展接口。
  
  6.结语
  
  随着信息技术的迅速发展和应用广度、深度的日益扩大,导致数据指数级的增加。然而惊人的数据量以及无法判断数据的有效性,导致了“数据太多,信息太少”的尴尬局面。讨论了数据仓库实现过程中非常重要的一环,元数据的实现与维护。元数据就像一座桥梁,将数据仓库中的数据和用户有机的结合了起来,它不仅在整个数据仓库系统,而且在整个决策支持系统中,都起着非常重要的作用。
  
  参 考 文 献
  [1]Inman W H. Building the Data Warehouse[M].New York: John Wiley & Sons Inc.,1996.
  [2]JillDyche. Data Warehouse, Metadata and Middle ware [J]. EA I Journal,2000(9):71~76.
  [3]夏红霞,曹献媛,钟珞.基于数据仓库的数据采掘技术应用[J].微机发展,2000,20(1):43~45.■
其他文献
[关键词] 电动机 启动 故障    一、一般原因    1.电机绕组的首末端不能颠倒,U1 V1 W1是同名端,U2 V2 W2是同名端,星形接法的星点必须是同名端,三相电源必须接入同名端。如果其中一相接反,电机出现一个反向磁场,这个磁场会抵消另外两个正向磁场的一部分,使磁场不能旋转而没有启动转矩。2.铁芯会进入磁饱和状态并迅速发热导致烧毁。还有5.5KW(380V)电机正常应该是三角接法,U1
期刊
[摘 要] 预算是一种系统的方法,用来分配企业的财务、实物及人力等资源,以实现企业既定的战略目标。企业可以通过预算来监控战略目标的实施进度,有助于控制开支,并预测企业的现金流量与利润。笔者认为,房地产企业集团预算管理的过程,是战略目标分解、实施、控制和实现的过程。对于房地产企业集团而言,预算必须与企业战略相结合,服从于企业远景规划和战略目标,根据战略寻找项目,根据战略确定项目的整体目标,根据战略确
期刊
[摘 要] 新课改下的美术课程设置,更具有灵活性、多样性、丰富性等特点,决定着更有利于培养学生的眼、手、脑三者协调工作,同时也能积极开启学生的思维能力和动手兴趣。新课改对培养学生的观察能力有课本和课程依托。观察是发展学生智力的重要途径,通过观察,可从学生熟悉却又没有深究过的社会现象出发,引出比较有深度的科学问题。新课改后的高中美术教学程式更有利于培养学生的创新精神。新课改下的美术教学,要求教师由知
期刊
[摘 要] 针对目前国税机关的信息化程度日益加深,上线使用了大量的IT信息系统,税务机关对运维的依赖性日益增强,目前的运维管理模式已经跟不上当前运维工作的要求,本文给出了基于ITIL的全省国税系统集中运行维护系统解决方案。建立了集中运维模型构架,分析了集中运维模型中各个构件的作用和功能,设计事件单流程、定制事件单审批规则,结合国税系统具体数据管理实例说明了如何在集中的平台下实现事件单的流转。本系统
期刊
[摘 要] Ajax(Asynchronous JavaScript+XML)是一个相当新的名字,是由Adaptive Path公司的咨询顾问Jesse James Garrett首先提出来的。Ajax的一些部分,以前称作动态HTML(Dynamic HTML)和远程脚本(remote scripting)。Ajax并不是一种新的技术,在Ajax中,采用一系列已有的甚至是老旧的技术,把它们重新锻造
期刊
[摘 要] 本文着重讲述了监理工程师如何把握好签字关,值得同行学习参考。  [关键词] 签字权 途径 方法    1.前言    随着监理事业的发展,监理作为工程建设中独立行使职权的第三方,在当前的建筑市场经营活动中扮演着越来越重要的角色,日益显示出其重要的地位和作用。监理企业是“以人为本”的服务型企业,监理人员素质的高低,直接体现出监理人员自身职业道德水平和监理企业的形象。而监理工作内容中的各个
期刊
[摘 要] UML是一种可视化的建模语言,是面向对象分析与设计的重要工具。本文以税务稽查举报案件管理系统为例,从UML的静态建模机制和动态建模机制入手,初步研究了基于UML的税务稽查举报案件管理系统的建模。  [关键词] UML 税务稽查举报案件管理系统    UML(Unified Modeling Language,统一建模语言)是由Rational公司的知名专家Gary Booch Ivar
期刊
1.引言    随着税务系统信息化事业的发展,已经形成了数据高度集中的面向纳税人和税管员的交易系统,产生了大量的业务数据,传统的税收分析方法已经满足不了新形势下税务管理的需要。由于数据挖掘技术可以在较大程度上解决目前数据、信息杂乱的现象,方便用户准确地定位所需的信息和分流信息,并通过预测未来趋势及行为,做出前摄的、基于知识的决策,因此,数据挖掘技术为分析人员提供了强有力的信息支持,帮助分析人员做出
期刊
[摘 要] 按新会计准则规定,会计人员在选择会计处理方法、原则、程序等方面有更大的职业判断空间,在一定程度上提高了企业会计信息质量。但实施新会计准则的效果如何,很大程度上取决于会计人员的职业判断的公允性。本文以研究会计职业判断为视角,在分析会计职业判断质量衡量标准的同时,提出提高会计职业判断公允性的思路。  [关键词] 新会计准则 职业判断 思路  中图分类号:F275 文献标识码:A    一、
期刊
[摘 要] 随着我国经济体制的转变和市场经济体制的逐步建立,为使水利工程项目在投资和收益之间找到最佳结合点,对水利工程造价进行管理已成为管理决策者们共同关心的话题。本文对水利工程造价控制涵义、内容进行分析说明,重点对水利工程造价控制措施进行归类总结,主旨在于为水利工程造价确立造价控制原则等对建设项目实施阶段的造价管理与控制进行了分析  [关键词] 工程造价 控制    一、水利工程造价控制涵义  
期刊