论文部分内容阅读
摘要:如何对海量事物数据进行科学的分析处理、提取有用信息为决策者提供合理的管理理念及决策支持已经成为图书管理所面临的新问题。鉴于此,文章通过数据仓库技术,如ETL、OLAP技术,对图书管现有交易数据进行动态建模。从数据的抽取、转换、加载及多维数据集的设计,到最后的OLAP分析,该模型形成了一个完整的体系,为决策者提供了辅助的决策支持。
关键词:数据仓库;联机分析处理;ETL;OLAP技术;图书借阅分析系统
中图分类号:TP311文献标识码:A文章编号:1009-2374(2009)21-0063-02
图书管理系统每天都会产生大量的统计数据,这些海量信息中蕴涵了对图书管理(如采购、馆藏、咨询等)有指导性的潜在信息。但传统的图书管理系统只有简单的借阅查询功能,难以从多维的角度对数据进行提取,进而为图书管理提供决策支持。
数据仓库、OLAP和数据挖掘技术是建立决策支持系统的有效手段。数据仓库集成了当前的业务数据、历史数据和外部数据,基于不同的主题,使用OLAP技术可以为图书管理情况提供有价值的信息,采用数据挖掘算法还可以对图书各业务趋势做出预测。因此,本文以数据仓库、OLAP为核心技术,并以时间为基准,通过ETL技术对数据进行增量式迁移,实现了对现有数据库的动态建模,以达到辅助支持图书管理的目的。
一、ETL技术
ETL(Extract,Transform,Load)即数据抽取、转换、清洗、装载的过程,是构建数据仓库最重要的步骤之一。用户从数据源抽取出所需的数据,经过数据处理,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。ETL总共分为数据抽取、数据转换、数据清洗、数据加载四个步骤。
二、数据仓库和OLAP概述
(一)数据仓库
数据仓库中的数据是面向主题的、集成的、不可更新的(稳定的)并随时间不断变化的,建立数据仓库的目的是为了更好地支持行业高层主管们的决策分析。数据仓库被看作是一种支持结构化和专门的查询、分析报告和决策制定的体系结构。由于数据库和数据仓库应用的出发点不同,数据仓库将独立于业务数据库系统。但是数据仓库又同业务数据库系统息息相关。事实上,数据仓库系统=ETL十数据存储+0LAP+客户端。
(二)OLAP多维模型
OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的,并真实反映企业多维特性的信息进行快速、一致、交互的存取,从而获得对数据的更深入了解的一类软件技术。其基本思想是企业决策者能够灵活地操作企业的数据,以多维的形式从多方面和多角度来观察企业的状态并了解企业的变化。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求。OLAP提供了对数据的多维分析方法,包括切片、切块、旋转、上钻、下钻等分析动作。
三、系统设计
通过综合考虑事务处理系统的数据环境和本系统的需求,设计基于数据仓库技术的图书借阅分析系统体系结构。该系统的体系结构图及数据流程如图1所示:
(一)数据仓库模型设计
数据仓库和OLAP 工具是基于多维数据模型的,该模型将数据看成数据立方体(Data Cube)的形式。图书借阅分析系统原始数据库主要信息有借还交易记录、客户信息、部门、地点、时间。因此,本文基于以上信息对数据仓库进行了建模型,所用多维数据集采用雪花型模式。考虑图书统计数据很大,为了提高分析效率,本文采取了两个策略:
1.将交易记录分为了两个事实表:借记录表和还记录表,并将两个表合并生成新的视图。这样分析可以根据需求而选择不同表。
2.采用“基于Apriori算法和OLAP的关联规则挖掘模型设计”所提方法对数据仓库数据进行处理以提高效率,并为以后的数据挖掘处理做好准备。在SQL Server 2005数据转化服务(DTS)中通过VB script语句完成此项转化,语句如下:
Function Main()
DTS Destination(“次数”)=1
Main=DTS TransformStat_OK
End Function
所设计数据仓库如图2所示:
(二)ETL实现策略
ETL策略是关于工作的总计划,处理诸如如何提取数据以及如何处理数据中的错误之类的问题。主要考虑的问题包括不同的数据格式、坏数据、不兼容的源系统、源系统的改变和提取与加载的窗口等,ETL策略需要定义这类问题的标准来为ETL过程提供依据。
考虑数据仓库设计需求,本系统ETL主要策略有两条(对于数据清洗、存储本文不作过多阐述):
1.根据交易记录的统计字段,在数据迁移过程中,将数据分为借图书事物数据和还图书事物数据,并分别存储。
2.以时间为基准,实现系统定时、增量式迁移数据。这将大大提高系统数据处理效率。本系统中选用Microsoft的DTS作为ETL工具,流程图如图3所示:
四、系统实施
(一)系统实现
Microsoft提供了一系列提取、分析、总结数据的工具,从而使联机分析成为可能,并将OLAP(联机分析处理)功能集成到Microsoft SQL Server中,提供可扩展的基于COM的OLAP接口。本系统采用Microsoft SQL Server 2005建立数据仓库、定义数据迁移的定时处理、OLAP模块的定时更新,利用Microsoft Visual Studio 2005开发数据迁移模块及OLAP联机分析处理模块。
(二)分析结果展示
本系统在某高校图书管运行,效果理想。图4为图书馆2007、2008年(学生类型—学院)借阅情况分析图。该图蕴涵信息有:
1.“计算机”和“经贸”学院的学生借书次数明显多于其他系,说明可以考虑分不同区域存放和这两个学院有关的图书,以增加安全性,避免借阅人员拥挤。
2.研究生借阅图书次数低于本科生,但考虑研究生总人数,说明研究生学习更为积极。
3.全校所有专科生借阅次数几乎没有,而专科生总人数巨大,说明该校专科生学习情况极为不好。学校应加强补救措施。
五、结语
本文给出了一种基于数据仓库、OLAP、ETL技术的实现图书借阅数据再次管理的解决方案。本系统运用数据仓库、OLAP技术,在原由图书管数据库的基础上进行了二次开发,且利用ETL技术使整个系统实现了智能增量更新,有效的达到了对图书借阅情况分析、学生学习情况分析及对图书管理工作支持的目的。当然,该方案缺乏和数据挖掘技术的结合,而在分析系统中,正是需要更为科学和强大的决策支持技术,如数据挖掘、专家系统等来满足特定的需求,数据仓库才能充分发挥其作用,这也是下阶段研究的重点。
参考文献
[1]Jiawei Han,Micheline Kamber.Data Mining:Concepts and Techniques,Second Edition [M].China Machine Press,2007.
[2]陈京民.数据仓库原理、设计与应用[M].北京:中国水利水电出版社,2004.
[3]谢琪,张振兴.基于Apriori算法和OLAP的关联规则挖掘模型设计[J].计算机应用,2007,27(6).
关键词:数据仓库;联机分析处理;ETL;OLAP技术;图书借阅分析系统
中图分类号:TP311文献标识码:A文章编号:1009-2374(2009)21-0063-02
图书管理系统每天都会产生大量的统计数据,这些海量信息中蕴涵了对图书管理(如采购、馆藏、咨询等)有指导性的潜在信息。但传统的图书管理系统只有简单的借阅查询功能,难以从多维的角度对数据进行提取,进而为图书管理提供决策支持。
数据仓库、OLAP和数据挖掘技术是建立决策支持系统的有效手段。数据仓库集成了当前的业务数据、历史数据和外部数据,基于不同的主题,使用OLAP技术可以为图书管理情况提供有价值的信息,采用数据挖掘算法还可以对图书各业务趋势做出预测。因此,本文以数据仓库、OLAP为核心技术,并以时间为基准,通过ETL技术对数据进行增量式迁移,实现了对现有数据库的动态建模,以达到辅助支持图书管理的目的。
一、ETL技术
ETL(Extract,Transform,Load)即数据抽取、转换、清洗、装载的过程,是构建数据仓库最重要的步骤之一。用户从数据源抽取出所需的数据,经过数据处理,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。ETL总共分为数据抽取、数据转换、数据清洗、数据加载四个步骤。
二、数据仓库和OLAP概述
(一)数据仓库
数据仓库中的数据是面向主题的、集成的、不可更新的(稳定的)并随时间不断变化的,建立数据仓库的目的是为了更好地支持行业高层主管们的决策分析。数据仓库被看作是一种支持结构化和专门的查询、分析报告和决策制定的体系结构。由于数据库和数据仓库应用的出发点不同,数据仓库将独立于业务数据库系统。但是数据仓库又同业务数据库系统息息相关。事实上,数据仓库系统=ETL十数据存储+0LAP+客户端。
(二)OLAP多维模型
OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的,并真实反映企业多维特性的信息进行快速、一致、交互的存取,从而获得对数据的更深入了解的一类软件技术。其基本思想是企业决策者能够灵活地操作企业的数据,以多维的形式从多方面和多角度来观察企业的状态并了解企业的变化。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求。OLAP提供了对数据的多维分析方法,包括切片、切块、旋转、上钻、下钻等分析动作。
三、系统设计
通过综合考虑事务处理系统的数据环境和本系统的需求,设计基于数据仓库技术的图书借阅分析系统体系结构。该系统的体系结构图及数据流程如图1所示:
(一)数据仓库模型设计
数据仓库和OLAP 工具是基于多维数据模型的,该模型将数据看成数据立方体(Data Cube)的形式。图书借阅分析系统原始数据库主要信息有借还交易记录、客户信息、部门、地点、时间。因此,本文基于以上信息对数据仓库进行了建模型,所用多维数据集采用雪花型模式。考虑图书统计数据很大,为了提高分析效率,本文采取了两个策略:
1.将交易记录分为了两个事实表:借记录表和还记录表,并将两个表合并生成新的视图。这样分析可以根据需求而选择不同表。
2.采用“基于Apriori算法和OLAP的关联规则挖掘模型设计”所提方法对数据仓库数据进行处理以提高效率,并为以后的数据挖掘处理做好准备。在SQL Server 2005数据转化服务(DTS)中通过VB script语句完成此项转化,语句如下:
Function Main()
DTS Destination(“次数”)=1
Main=DTS TransformStat_OK
End Function
所设计数据仓库如图2所示:
(二)ETL实现策略
ETL策略是关于工作的总计划,处理诸如如何提取数据以及如何处理数据中的错误之类的问题。主要考虑的问题包括不同的数据格式、坏数据、不兼容的源系统、源系统的改变和提取与加载的窗口等,ETL策略需要定义这类问题的标准来为ETL过程提供依据。
考虑数据仓库设计需求,本系统ETL主要策略有两条(对于数据清洗、存储本文不作过多阐述):
1.根据交易记录的统计字段,在数据迁移过程中,将数据分为借图书事物数据和还图书事物数据,并分别存储。
2.以时间为基准,实现系统定时、增量式迁移数据。这将大大提高系统数据处理效率。本系统中选用Microsoft的DTS作为ETL工具,流程图如图3所示:
四、系统实施
(一)系统实现
Microsoft提供了一系列提取、分析、总结数据的工具,从而使联机分析成为可能,并将OLAP(联机分析处理)功能集成到Microsoft SQL Server中,提供可扩展的基于COM的OLAP接口。本系统采用Microsoft SQL Server 2005建立数据仓库、定义数据迁移的定时处理、OLAP模块的定时更新,利用Microsoft Visual Studio 2005开发数据迁移模块及OLAP联机分析处理模块。
(二)分析结果展示
本系统在某高校图书管运行,效果理想。图4为图书馆2007、2008年(学生类型—学院)借阅情况分析图。该图蕴涵信息有:
1.“计算机”和“经贸”学院的学生借书次数明显多于其他系,说明可以考虑分不同区域存放和这两个学院有关的图书,以增加安全性,避免借阅人员拥挤。
2.研究生借阅图书次数低于本科生,但考虑研究生总人数,说明研究生学习更为积极。
3.全校所有专科生借阅次数几乎没有,而专科生总人数巨大,说明该校专科生学习情况极为不好。学校应加强补救措施。
五、结语
本文给出了一种基于数据仓库、OLAP、ETL技术的实现图书借阅数据再次管理的解决方案。本系统运用数据仓库、OLAP技术,在原由图书管数据库的基础上进行了二次开发,且利用ETL技术使整个系统实现了智能增量更新,有效的达到了对图书借阅情况分析、学生学习情况分析及对图书管理工作支持的目的。当然,该方案缺乏和数据挖掘技术的结合,而在分析系统中,正是需要更为科学和强大的决策支持技术,如数据挖掘、专家系统等来满足特定的需求,数据仓库才能充分发挥其作用,这也是下阶段研究的重点。
参考文献
[1]Jiawei Han,Micheline Kamber.Data Mining:Concepts and Techniques,Second Edition [M].China Machine Press,2007.
[2]陈京民.数据仓库原理、设计与应用[M].北京:中国水利水电出版社,2004.
[3]谢琪,张振兴.基于Apriori算法和OLAP的关联规则挖掘模型设计[J].计算机应用,2007,27(6).