从传统数据库到数据仓库

来源 :电脑知识与技术·学术交流 | 被引量 : 0次 | 上传用户:ppsl21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:数据仓库作为数据库技术应用到特定领域中的一门新技术,在决策系统中起着重要作用。本文阐述了数据仓库的应用背景、基本概念和特点,主要将数据仓库与传统数据库进行对比,并指出传统数据库在创建数据仓库中可充分利用。
  关键词:数据仓库;传统数据库
  中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)20-30206-02
  
  From Traditional Database to Data Warehouse
  GAO Kang
  (School of Health Technology of Jianghan University, Wuhan 430056, China)
  Abstract: As a new technology derived from Database technology applied to a specific areas, Data warehouse plays an important role in the DSS. This paper describes the application background of the Data warehouse, the basic concepts and characteristics. And primary put Data warehouse compared with traditional Database, also pointed out that creating a Data warehouse can take full advantage of traditional Database.
  Key words: Data warehouse; traditional Database
  
  1 数据仓库(Data Warehouse)概述
  
  1.1 数据仓库的应用背景
  当今社会,正确及时的决策是任何机构生存和发展的重要环节。只有充分利用、发掘其现有数据才能实现更大的效益。日常的业务应用生成了大量的数据,将这些数据用于决策支持会带来显著的附加值效果。如果再加上有用的外来数据,则产生的效益进一步增强。许多机构在计算机系统中储存有大量的数据,例如一个企业购买、销售、生产过程中产生的数据及与客户相关数据等。通常这些数据都储存在许多不同的地方。数据仓库将分散在机构内各种跨平台的数据经过重新组合和加工,构成面向决策的数据集合,进而支持数据发掘、多为分析等技术和传统查询及报表功能的。企业和组织对这类应用的需求推动了数据仓库技术的发展。
  1.2 数据仓库的概念及特点
  不同的学者对数据仓库有不同的定义,这里我们以数据仓库之父Bill Inmon在1991年出版的《Building the Data Warehouse》一书中所提出的定义为准。数据仓库(简称DW)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
  其特点即概念中所描述的四点:面向主题、集成、相对稳定和反映历史变化。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业或组织的各项数据,以及数据之间的联系;集成是指,数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是一致的全局信息;相对稳定也可以认为是一般情况下不可更新的。数据仓库的数据主要供企业或组织决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新;反映历史变化是指,数据仓库中的数据通常包含历史信息,系统记录了企业或组织从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
  
  2 數据仓库与传统数据库的比较
  
  2.1 差异概述
  数据仓库既然是支持决策的,那么现今数据库技术已经已经日趋成熟,为什么不直接以传统数据库为基础来建立决策支持系统(DSS)呢?回答这个问题之前先了解两个概念,操作型处理和分析型处理。操作型处理(也叫事务处理),是指对数据库联机的日常操作,通常是对一个或一组记录的查询和修改。分析型处理则用于管理人员的决策分析。两者之间存在着巨大差异。
  传统数据库,主要用于事务处理。最初的DSS也的确是直接建立在这种事务处理环境上的。事务处理是事务驱动的、面向应用的。它的根本任务就是及时地、安全地将当前事务所产生的记录保存下来。分析处理应用则完全不同。当以事务处理为主的联机事务处理应用(OLTP)与分析处理为主的DSS应用共存于同一个数据库系统中时,这两类处理发生了明显的冲突。直接使用事务处理环境来支持DSS是不合适的。表1给出了传统事务处理数据库与数据仓库之间的异同。
  2.2 数据模型方面的差异
  数据模型是数据仓库设计的精髓。关系数据库的关系数据模型已经被大家所熟知,在此不再详细说明。这种关系模型难以表达数据仓库的数据结构和语义;数据仓库需要简明的、面向主题以及便于联机数据分析的数据模式。
  数据仓库一般是基于多维数据模型构建。该模型将数据看成数据立方,数据立方既描述一个语义结构由描述底层结构的实例化,由维和事实构成。维是人们观察主题的特定角度,每一个维分别用一个表来描述,称为维表,它是对维的详细描述。事实表示所关注的主题,也由表来描述,称为事实表,主要特点是包含数值数据,这些数值数据可以进行汇总以提供有关操作历史的信息。每个事实表包括一个由多个字段组成的索引,该索引由相关维表的主键组成,维表的主键也可称为维标识符。事实表一般不包含描述性的信息,维表包含描述事实表中事实记录的信息。
  数据仓库的多维数据模型分为3种:星型模式、雪花模式和事实星座模式。其中星型模式最为常见,主要构成为:一个含大量而无冗余数据的事实表;多个相对含有较少数据的维表。每个维度自主组成一个维表,每个维表有一个维标识符与中心事实表发生联系,用图形描述呈星型。
  如图1所示是一个销售数据仓库的星型模式。其中,有一个销售事实表,4个维表。事实表的索引是相应维表的主键,是事实表的外键。通过这种引用关系构成了多维联系。在每张维表中,除包含每个维的主键外,还需要描述该维的一些其他属性字段。
  
  图1
  雪花模式是数据仓库的又一种数据模式,是星型的延伸形式。因为维表是二维关系的一个特例,在设计维表时,可用关系数据库的规范化理论进行优化,以减少数据冗余,消除插入、删除异常,同时达到易维护和节约存储空间的目的。这样就有可能把某个维表的数据分解到多个不同的表中,而使模式表现为类似于雪花的形状。如图2即是在图1基础上演变而来的雪花模型。
  由于雪花模式的某个维的数据分布在其他表中,查询时需要多表连接,给系统带来时间上的开销而降低性能。在这两种结构之间的选择取决于数据的规模和性质,以及在线分析处理的工作负荷。通常,星型模式需要更多的存储容量,但是处理起来更快;雪花模式更慢,但是占用较少的存储空间。
  事实星座模式是指存在多个事实表,而这些事实表共享某些维表,也称星系模式,因并不常用在此不进行详述。
  
  3 生成数据仓库过程可充分利用传统数据库
  
  以上已经给出了数据仓库的概念和与传统数据库的主要区别,但并不是说数据仓库和传统数据库是完全割裂的。数据仓库、OLAP和数据挖掘(DM)一体才能够实现一个可行的DSS,数据仓库用于数据的存储和组织,OLAP集中于数据的分析,DM则致力于知识的自动发现。显然数据仓库在本质上和传统数据库是一样的都是用来存储数据的。
  数据仓库的作用是存储从工作数据中节选的数据,并进行合并、聚集、变换等操作,通过一些为了分析和决策而设计的工具(如OLAP),使其对用户有用。这些数据可以是从数据库和文件中节选的,还可以是图像、录音、照片和其他数据。传统数据库中数据多以细节为主,可以作为数据仓库中粒度较小那一部分数据的来源。从数据仓库数据模型来看,也是以传统数据库表为基础生成的,传统数据库表通过规范化来消除表修改异常,在数据仓库中同样采用此方法来规范化维表,比如星型模型向雪花模型的转变。只是在表结构方面有所不同。我们在生成数据仓库时,应本着面向主题的原则,充分利用传统数据库数据,对有用数据进行抽取,将分散数据进行综合。完全可以做到对传统数据库数据的充分利用。
  
  4 结束语
  
  长期以来随着数据库技术的发展,积累了大量的数据,并且规模还在迅速的增加和扩大,现阶段急需采用新的数据库技术从日益庞大的数据库中提取出有用信息。数据仓库的出现和发展,就是计算机和数据库技术应用到一定阶段的必然产物。现在数据仓库技术研究仍处于起步阶段,其复杂性还需要大家进行深入研究。
  
  参考文献:
  [1] 萨师煊,王珊. 数据库系统概论(第3版)[M]. 高等教育出版社,2000.
  [2] 王林. 数据库系统原理与应用技术基础[M]. 北京希望电子出版社,2003.
  [3] 王珊,等. 二十一世纪数据库系统的未来研究方向[M]. 计算机科学,1996.
  [4] David M.Kroenke 著. 施伯乐, 等译. 数据库处理——基础、设计与实现(第8版)[M]. 电子工业出版社,2001.
其他文献
摘要:数字水印技术是数字产品版权保护领域中的研究热点,是一种全新的保护多媒体信息安全的技术。许多专家对数字水印算法进行了深刻的广泛的研究,并取得了一定的成果,本文首先简单介绍了数字水印技术的一般的基本原理,同时对多媒体短信(MMS)基本含义作了一个简单的介绍,详细阐述了利用数字水印技术在多媒体短信(MMS)中进行信息隐藏的理论,同时简单分析了数字水印技术在未来多媒体短信(MMS)的应用潜力。  关
期刊
摘要:论文基于MODICON伺服系统研究了现代物流装备中堆垛机的运动控制方法,并结合具体实际设计了一个有轨巷道堆垛机的运动控制系统。  关键词:伺服系统;运动控制;堆垛机;物流系统  中图分类号:TH246 文献标识码:A 文章编号:1009-3044(2008)13-20756-03
期刊
摘要:在多线接入电话终端项目中,对语音进行处理是一个非常重要的部分。语音的处理包括静噪,回声消除和混音几个部分。其中混音技术,关系到在电话终端的语音质量,在应用中尤为重要。在系统中,需要使用SEP4020对多路的语音进行混音合成。该文对混音算法及其在SEP4020上的应用做了讨论。  关键词:混音;权重法;SEP4020  中图分类号:TP334文献标识码:A文章编号:1009-3044(2008
期刊
摘要:在zigbee多节点的应用场合中,为了能够方便快捷的查找某个节点,或者监测周围移动节点在一个范围内的情况,提出了无线搜寻的概念。本设计是一种在win CE下基于zigbee短距离无线搜寻系统。可以对几十米内遵循zigBee协议的产品进行搜寻,用于搜寻的模块使用串口与装有win CE操作系统的手持设备进行数据通信,并通过win CE上的软件将周围设备与手持设备的大概距离显示出来。  关键字:z
期刊
摘要:实验室管理系统是高效管理的重要组成部分。该系统针对目前高校多校区化导致实验室不易管理的问题,基于ASP.NET与XML等新技开发的实验室管理系统。通过XML技术,实现不同平台之间信息交互,达到统一管理的目的。  关键词:ASP.NET;XML;管理系统  中图分类号:TP315 文献标识码:A 文章编号:1009-3044(2008)13-20708-03
期刊
摘要:强化学习使agent具有在线自主学习能力,该文介绍了MDP模型下的自适应动态规划、时序差分学习、Q-学习等几种典型agent强化学习方法,并从基本思想、学习内容、收敛速度、可扩展性等方面对它们进行了对比分析。  关键词:MDP;自适应动态规划;时序差分学习;Q-学习  中图分类号:G424 文献标识码:A 文章编号:1009-3044(2008)13-20774-03
期刊
摘要:通过SQL语句优化后查询速度可以得到有效的提升。  关键词:SQL语句;查询速度;查询优化  中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)20-30200-01  SQL Statement in Improving the Optimization of Data Query  MA Li-ming, WANG Shou-tao, XU Yan-lei  
期刊
摘要:配置是VHDL语言的一个基本设计单元,用来为设计实体指定综合或仿真时采用的结构体。论文结合教学实际讨论了VHDL语言中配置语句的常用的三种用法:默认配置、元件配置和结构配置。论文首先论述了每种配置语句的格式,然后以数字电路中的半加器和全加器的VHDL描述为例,说明每种配置语句格式的使用方法。最后对论文内容进行归纳并得出几点结论。论文对VHDL语言教学及基于VHDL层次化电路设计都具有一定的指
期刊
摘要:对继电保护装置中模数转换电路进行了探讨,提出了以AD7856芯片为功能核心,DSP芯片TMS320VC33作为控制的具体硬件实现电路和软件设计流程。试验表明该电路满足设计要求,保护电流、电压测量精度达到3%,测量电流精度达到0.2%。  关键字:继电保护;AD7865;采样频率  中图分类号:TM771 文献标识码: 文章编号:1009-3044(2008)13-20764-03
期刊
摘要:介绍数据仓库的概念,通过数据仓库、数据挖掘技术,创建数据挖掘模型,实现了图书流通分析系统,为图书馆管理者提供了决策支持。  关键词:数据仓库;流通分析;数据挖掘;图书馆  中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)20-30201-03    Research and Application of Books Circulation Analysis Sy
期刊