数据仓库和ETL、OLAP技术在图书借阅分析系统中的应用

来源 :中国高新技术企业 | 被引量 : 0次 | 上传用户:radcuijun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:如何对海量事物数据进行科学的分析处理、提取有用信息为决策者提供合理的管理理念及决策支持已经成为图书管理所面临的新问题。鉴于此,文章通过数据仓库技术,如ETL、OLAP技术,对图书管现有交易数据进行动态建模。从数据的抽取、转换、加载及多维数据集的设计,到最后的OLAP分析,该模型形成了一个完整的体系,为决策者提供了辅助的决策支持。
  关键词:数据仓库;联机分析处理;ETL;OLAP技术;图书借阅分析系统
  中图分类号:TP311文献标识码:A文章编号:1009-2374(2009)21-0063-02
  
  图书管理系统每天都会产生大量的统计数据,这些海量信息中蕴涵了对图书管理(如采购、馆藏、咨询等)有指导性的潜在信息。但传统的图书管理系统只有简单的借阅查询功能,难以从多维的角度对数据进行提取,进而为图书管理提供决策支持。
  数据仓库、OLAP和数据挖掘技术是建立决策支持系统的有效手段。数据仓库集成了当前的业务数据、历史数据和外部数据,基于不同的主题,使用OLAP技术可以为图书管理情况提供有价值的信息,采用数据挖掘算法还可以对图书各业务趋势做出预测。因此,本文以数据仓库、OLAP为核心技术,并以时间为基准,通过ETL技术对数据进行增量式迁移,实现了对现有数据库的动态建模,以达到辅助支持图书管理的目的。
  
  一、ETL技术
  
  ETL(Extract,Transform,Load)即数据抽取、转换、清洗、装载的过程,是构建数据仓库最重要的步骤之一。用户从数据源抽取出所需的数据,经过数据处理,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。ETL总共分为数据抽取、数据转换、数据清洗、数据加载四个步骤。
  
  二、数据仓库和OLAP概述
  
  (一)数据仓库
  数据仓库中的数据是面向主题的、集成的、不可更新的(稳定的)并随时间不断变化的,建立数据仓库的目的是为了更好地支持行业高层主管们的决策分析。数据仓库被看作是一种支持结构化和专门的查询、分析报告和决策制定的体系结构。由于数据库和数据仓库应用的出发点不同,数据仓库将独立于业务数据库系统。但是数据仓库又同业务数据库系统息息相关。事实上,数据仓库系统=ETL十数据存储+0LAP+客户端。
  (二)OLAP多维模型
  OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的,并真实反映企业多维特性的信息进行快速、一致、交互的存取,从而获得对数据的更深入了解的一类软件技术。其基本思想是企业决策者能够灵活地操作企业的数据,以多维的形式从多方面和多角度来观察企业的状态并了解企业的变化。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求。OLAP提供了对数据的多维分析方法,包括切片、切块、旋转、上钻、下钻等分析动作。
  
  三、系统设计
  
  通过综合考虑事务处理系统的数据环境和本系统的需求,设计基于数据仓库技术的图书借阅分析系统体系结构。该系统的体系结构图及数据流程如图1所示:
  (一)数据仓库模型设计
  数据仓库和OLAP 工具是基于多维数据模型的,该模型将数据看成数据立方体(Data Cube)的形式。图书借阅分析系统原始数据库主要信息有借还交易记录、客户信息、部门、地点、时间。因此,本文基于以上信息对数据仓库进行了建模型,所用多维数据集采用雪花型模式。考虑图书统计数据很大,为了提高分析效率,本文采取了两个策略:
  1.将交易记录分为了两个事实表:借记录表和还记录表,并将两个表合并生成新的视图。这样分析可以根据需求而选择不同表。
  2.采用“基于Apriori算法和OLAP的关联规则挖掘模型设计”所提方法对数据仓库数据进行处理以提高效率,并为以后的数据挖掘处理做好准备。在SQL Server 2005数据转化服务(DTS)中通过VB script语句完成此项转化,语句如下:
  Function Main()
  DTS Destination(“次数”)=1
  Main=DTS TransformStat_OK
  End Function
  所设计数据仓库如图2所示:
  (二)ETL实现策略
  ETL策略是关于工作的总计划,处理诸如如何提取数据以及如何处理数据中的错误之类的问题。主要考虑的问题包括不同的数据格式、坏数据、不兼容的源系统、源系统的改变和提取与加载的窗口等,ETL策略需要定义这类问题的标准来为ETL过程提供依据。
  考虑数据仓库设计需求,本系统ETL主要策略有两条(对于数据清洗、存储本文不作过多阐述):
  1.根据交易记录的统计字段,在数据迁移过程中,将数据分为借图书事物数据和还图书事物数据,并分别存储。
  2.以时间为基准,实现系统定时、增量式迁移数据。这将大大提高系统数据处理效率。本系统中选用Microsoft的DTS作为ETL工具,流程图如图3所示:
  
  四、系统实施
  
  (一)系统实现
  Microsoft提供了一系列提取、分析、总结数据的工具,从而使联机分析成为可能,并将OLAP(联机分析处理)功能集成到Microsoft SQL Server中,提供可扩展的基于COM的OLAP接口。本系统采用Microsoft SQL Server 2005建立数据仓库、定义数据迁移的定时处理、OLAP模块的定时更新,利用Microsoft Visual Studio 2005开发数据迁移模块及OLAP联机分析处理模块。
  (二)分析结果展示
  本系统在某高校图书管运行,效果理想。图4为图书馆2007、2008年(学生类型—学院)借阅情况分析图。该图蕴涵信息有:
  1.“计算机”和“经贸”学院的学生借书次数明显多于其他系,说明可以考虑分不同区域存放和这两个学院有关的图书,以增加安全性,避免借阅人员拥挤。
  2.研究生借阅图书次数低于本科生,但考虑研究生总人数,说明研究生学习更为积极。
  3.全校所有专科生借阅次数几乎没有,而专科生总人数巨大,说明该校专科生学习情况极为不好。学校应加强补救措施。
  
  五、结语
  
  本文给出了一种基于数据仓库、OLAP、ETL技术的实现图书借阅数据再次管理的解决方案。本系统运用数据仓库、OLAP技术,在原由图书管数据库的基础上进行了二次开发,且利用ETL技术使整个系统实现了智能增量更新,有效的达到了对图书借阅情况分析、学生学习情况分析及对图书管理工作支持的目的。当然,该方案缺乏和数据挖掘技术的结合,而在分析系统中,正是需要更为科学和强大的决策支持技术,如数据挖掘、专家系统等来满足特定的需求,数据仓库才能充分发挥其作用,这也是下阶段研究的重点。
  
  参考文献
  [1]Jiawei Han,Micheline Kamber.Data Mining:Concepts and Techniques,Second Edition [M].China Machine Press,2007.
  [2]陈京民.数据仓库原理、设计与应用[M].北京:中国水利水电出版社,2004.
  [3]谢琪,张振兴.基于Apriori算法和OLAP的关联规则挖掘模型设计[J].计算机应用,2007,27(6).
其他文献
这是一篇论述二十世纪末新疆艺术批评的论文.在"西部大开发"的文化背景下,倡导性阐释性的艺术批评、历史文化建构性的艺术批评、重于价值判断审美判断的艺术批评是新疆艺术批
制革污水严重的污染周边人民的生活环境,特别是其中的铬离子,由于微生物对铬无分解能力,生化处理不能去除铬的污染,且铬离子进水生化系统容易引起细菌的铬中毒。针对铬鞣废液
阐述了GPS RTK技术在变更地籍测量中的具体应用,包括GPS RTK工作基本原理、基站的选址和建立、外业测量的方法和步骤、内业的处理等,强调了在应用过程中应当注意的事项,以达到如何进一步提高地籍测量精度的目的。
可持续发展已成为一种全球性的发展战略思想,是作为水利人必须重视研究、探讨水利的可持续发展问题。水库是将天然水在时间和空间上实现重新分配的重要设施,因此,水库的除险加固
套袋对梨果实品质的形成有重要的影响。不同套袋的时期,袋种及去袋的时期对果实的影响程度不同。套袋对果实外观品质的影响包括:果实的色泽、果形果个、果面光洁度;套袋对果实内
文章重点论述了高层建筑岩土工程勘察工作量的布置、勘探工艺、取样、测试、桩基类型等方法,并结合实例予以说明。希望对建筑行业相关领域提供参考。
目的重新评价HBeAg检测的临床意义.方法建立单克隆抗-HBe固相ELISA法检测118例HBV感染者血清HBeAg特异免疫复合物(HBeAg/IC).结果HBeAg/IC与HBV复制相关,可作为HBV复制的一种血清学
本文阐述了湖北省农机标准化工作的发展现状,分析了湖北省农机标准化工作存在的标准落后和体系不健全等突出问题,并提出下一步的发展方向、推进办法,以及加强组织领导,建立健
为顺应当今高等教育改革的趋势和潮流.适应高等教育发展需求和社会发展需求,切实提高教学质量和本科人才培养质量.各高校都在人才培养模式上不断创新。本文拟对西北师范大学实行
加强业主组织的地位、实现业主自治是解决业主内部纠纷、维护业主权益的有效途径,也是提高我国城市住宅小区管理水平和发展房地产经济的必由之路.本文从业主自治组织形成的法