论文部分内容阅读
摘要:该文给出了民声通道数据仓库的设计与实现方案,对不同数据源和不同格式的数据进行抽取、清洗、集成、转换和加载,最后建立了民声通道数据仓库,并且对民声通道数据仓库进行OLAP分析,将数据信息结构详细分析并可视化呈现。
关键词:数据仓库;OLAP分析;民声通道
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)16-3663-03
数据仓库是决策支持分析的基础,数据仓库的建立包括确定决策主题、目标物理库设计、实现数据装载和联机分析处理四个方面内容。民声通道系统是一套集网站、热线、电子邮件和短信功能为一体的电子信访系统。该文以抚州市民声通道系统为例,详细论述了民声通道数据仓库建立的基本原理和具体实践过程,并在此基础上进行联机分析处理对民声通道问题结构进行系统直观分析。
1 分析
1.1 原始数据分析
1.2 数据仓库的概念模型设计[1]
维度表和事实表的设计是数据仓库构建的核心,维表和事实表设计直接影响到数据仓库的响应时间和效果分析的关键问题。维是决策者分析对象的角度,这样的维的设计最能分析决策者的意图和角度。它必须体现出数据仓库中数据的不同层次,也就是数据的粒度。我们可以根据分析主题组织事实表和维度表,下面是采用信息包图方法为民声通道数据仓库建立的概念模型。
1.4 数据仓库的物理模型设计
数据仓库的物理模型[2-4],用于实现数据仓库的逻辑模型,主要是为了解决数据的存储结构、表结构的定义、数据的索引策略、存储分配等问题。在民声通道数据仓库设计中, 我们以信息包图和星型模型为基础设计各个表最终结构,并且确定事实表、维度表和具体情况表之间的关系最终形成事实表/维度表关系基本结构, 然后再考虑索引策略、数据存储位置及存储分配等。最后我们用SQL Server 平台建立数据仓库的基本结构。在实施过程中还需要完成数据仓库与业务处理系统的接口设计,形成数据仓库物理仓库与元数据库,完成对数据仓库数据的初次加载,从而建立决策支持系统应用。
在数据加载前,首先需要对数据按照源数据的定义进行格式化清理,然后在清理完毕后,将从源数据转出的数据加载至数据仓库环境中。这些加载工作都是通过ETL调度工具通过运行特定的ETL作业实现的。
2 民声通道数据仓库的实现
设计数据仓库,首先应分析原始数据,使用SQL Server Management Studio设计数据仓库,然后定义数据源,进行数据抽取,完成数据源到目标数据仓库的映射,最后调试,即数据加载成功。
2.1 数据源定义
2.2 设计和使用ETL
设计好了结构良好的数据仓库,并且将需要分析的业务数据转载到了数据仓库中后,就为满足决策分析的全方位需求打下了根基。但是对数据的多维分析,主要是针对数据仓库中提取的子集,如数据集市和多维数据集。
2.3 联机分析处理
将多维数据集与EXCEL工具结合,能方便地进行OLAP操作及将结果通过报表、图形等多种方式进行可视化展现。
3 小结
本文首先介绍了数据仓库设计的基本原理及设计思想,其次重点介绍民声通道数据仓库的具体设计与实现,最后进行数据分布展示和相关OLAP分析,对信息结构进行系统分析与研究。
参考文献:
[1] 胡海员.数据仓库与数据挖掘技术在招生决策中的应用研究[D].南京:东南大学,2006.
[2] Paulraj ponniah.数据仓库基础[M].北京:电子工业出版社,2004.
[3] 林宇.数据仓库原理与实践[M].北京:人民邮电出版社,2003.
[4] 刘李法.基于数据仓库的图书馆决策支持系统的研究与实现[D].南京:东南大学,2005.
关键词:数据仓库;OLAP分析;民声通道
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)16-3663-03
数据仓库是决策支持分析的基础,数据仓库的建立包括确定决策主题、目标物理库设计、实现数据装载和联机分析处理四个方面内容。民声通道系统是一套集网站、热线、电子邮件和短信功能为一体的电子信访系统。该文以抚州市民声通道系统为例,详细论述了民声通道数据仓库建立的基本原理和具体实践过程,并在此基础上进行联机分析处理对民声通道问题结构进行系统直观分析。
1 分析
1.1 原始数据分析
1.2 数据仓库的概念模型设计[1]
维度表和事实表的设计是数据仓库构建的核心,维表和事实表设计直接影响到数据仓库的响应时间和效果分析的关键问题。维是决策者分析对象的角度,这样的维的设计最能分析决策者的意图和角度。它必须体现出数据仓库中数据的不同层次,也就是数据的粒度。我们可以根据分析主题组织事实表和维度表,下面是采用信息包图方法为民声通道数据仓库建立的概念模型。
1.4 数据仓库的物理模型设计
数据仓库的物理模型[2-4],用于实现数据仓库的逻辑模型,主要是为了解决数据的存储结构、表结构的定义、数据的索引策略、存储分配等问题。在民声通道数据仓库设计中, 我们以信息包图和星型模型为基础设计各个表最终结构,并且确定事实表、维度表和具体情况表之间的关系最终形成事实表/维度表关系基本结构, 然后再考虑索引策略、数据存储位置及存储分配等。最后我们用SQL Server 平台建立数据仓库的基本结构。在实施过程中还需要完成数据仓库与业务处理系统的接口设计,形成数据仓库物理仓库与元数据库,完成对数据仓库数据的初次加载,从而建立决策支持系统应用。
在数据加载前,首先需要对数据按照源数据的定义进行格式化清理,然后在清理完毕后,将从源数据转出的数据加载至数据仓库环境中。这些加载工作都是通过ETL调度工具通过运行特定的ETL作业实现的。
2 民声通道数据仓库的实现
设计数据仓库,首先应分析原始数据,使用SQL Server Management Studio设计数据仓库,然后定义数据源,进行数据抽取,完成数据源到目标数据仓库的映射,最后调试,即数据加载成功。
2.1 数据源定义
2.2 设计和使用ETL
设计好了结构良好的数据仓库,并且将需要分析的业务数据转载到了数据仓库中后,就为满足决策分析的全方位需求打下了根基。但是对数据的多维分析,主要是针对数据仓库中提取的子集,如数据集市和多维数据集。
2.3 联机分析处理
将多维数据集与EXCEL工具结合,能方便地进行OLAP操作及将结果通过报表、图形等多种方式进行可视化展现。
3 小结
本文首先介绍了数据仓库设计的基本原理及设计思想,其次重点介绍民声通道数据仓库的具体设计与实现,最后进行数据分布展示和相关OLAP分析,对信息结构进行系统分析与研究。
参考文献:
[1] 胡海员.数据仓库与数据挖掘技术在招生决策中的应用研究[D].南京:东南大学,2006.
[2] Paulraj ponniah.数据仓库基础[M].北京:电子工业出版社,2004.
[3] 林宇.数据仓库原理与实践[M].北京:人民邮电出版社,2003.
[4] 刘李法.基于数据仓库的图书馆决策支持系统的研究与实现[D].南京:东南大学,2005.