论文部分内容阅读
数据仓库技术起源于对大量数据进行分析的需要。在激烈的市场竞争环境下,基于业务数据的决策分析--联机分析处理,比已往任何时候都显得重要。如果说传统的联机事务处理强调的是更新数据库――向数据库中添加信息,那么联机分析处理就是从数据库中获取、利用信息。因此著名的数据仓库专家 Raphl Kimball 写道:“我们花了二十多年的时间将数据放入数据库中,如今是该把它们拿出来的时候了。”因此支持海量数据存储、高性能查询、OLAP(联机分析处理)、DSS(决策支持系统)、数据挖掘应用的数据仓库技术孕育而生。点击流数据仓库是数据仓库技术发展的一个方面。随着电子商务的飞速发展,电子商务对企业的经营活动开始产生巨大的影响。电子商务逐渐成为企业市场销售和客户服务的一个重要渠道。充分利用电子商务将给企业带来巨大的经济效益和社会效益。 电子商务网站每天都产生大量的点击流数据。它们中包含很多对企业非常有用的信息,例如,客户的来源、客户的行为、客户的兴趣等。对这些数据进行有效的分析,不但能够对电子商务网站的建设起到指导作用,增强网站的粘着度,而且也能够反映出企业在市场、销售、服务和财务等各个方面的状况。总之,对这些数据进行深层次分析,能够使电子商务网站的拥有者改善客户关系、充分提高企业在市场销售和服务等各个方面的质量。 在本篇论文中,作者研究了数据仓库的维度建模方法、点击流数据仓库的 ETL 设计、数据仓库的实施和前端展示技术。 在维度建模中,按照 Raphl Kimball 提出的维度建模方法设计数据仓库数据库。Raphl Kimball 的维度建模理论包括三个过程: 1、分析商务过程,确定分析主题。了解用户的商务流程,根据用户的需求确定需要在数据仓库系统中分析的主题 2、根据分析主题建立数据集市。建立数据集市的过程又包括:A、确定分析主题的粒度。B、确定应用于事实表的维度。C、确定事实表的事实。3、建立总线结构的数据仓库。在数据仓库的 ETL(抽取、转换、装载)设计中,首先分析并总结了数据仓库 ETL 设计的方法。因为数据仓库数据库是在 SQLServer2000 上构建的,因而选用了 DTS(数据转换服务)来设计点击流数据仓库的 ETL 过程。DTS 功能强大,使用方便。对于采用 SQLServer 构造的数据仓库,DTS 是设计数据仓库 ETL 过程的理想工具。在本论文中,特别对 DTS 的自定义任务和多阶段抽取进行了探讨。在建好数据仓库数据库后,为了进行 OLAP 分析就要设计多维数据集。多维数据集是一个数据集合,通常从数据仓库数据库构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。这里选用了微软的 SQL Server Analysis Service 来设计多维数据集。他的分析服务器(Analysis Service)是一个用于联机分析处理(OLAP)和数据挖掘的中间层服务器。Analysis Server 从数据仓库数据库中组织经过预先进行聚合计算的数据到多维数据集。在前端展示的设计中,选用了 Analysis Service 的数据透视表来展示多维数据集。数据透视表是 Analysis Service 的客户端组件。用户可以通过它来访问多维数据集的数据。设计中还使用了多维查询语言 MDX 对多维数据集进行主题分析。然后将分析结果在网页上展示。本论文力图研究一种点击流数据仓库系统的构建方案。关键词:点击流;数据仓库;SQL;Server;Analysis;DTS