论文部分内容阅读
本文从技术发展和商业需求两个方面,提出数据仓库出现的历史必然。联机事务系统和联机分析系统之间存在许多差异,传统OLTP应用主要考虑事务处理效率,而数据仓库数据具有面向主题、集成、包含历史数据、数据不经常更新,数据随时间而变化等特点,数据组织是为了提高数据访问效率。因此,数据仓库满足决策支持系统频繁访问数据的需求,是决策支持系统几种解决方案中最具实践性的技术。 传统决策支持系统解决方案具有技术难度大、不容易实施等缺陷,从而限制了决策支持系统的发展。数据仓库的出现为决策支持系统带来生机。设计数据仓库的目的是提高决策分析能力。为达到此目的,数据仓库设计需要考虑许多因素,包括物理存储、元数据、加快数据访问效率的各种技术以及软件开发方法论等技术。 数据仓库体系结构的历史变迁决定了企业实现数据仓库项目必须采用合适的体系结构和物理实现。数据仓库从最初局部数据集市的实施到最后企业范围数据仓库的建成,需要经历漫长的开发周期。数据仓库开发方法和传统联机事务系统采用的系统开发生命周期方法完全不同。系统生命周期方法是需求驱动的,应用项目是在商业需求明确的情况下进行设计、开发,而数据仓库项目是数据驱动的,必须采用反复、螺旋的方法进行开发。数据仓库设计常用的数据模型是E-R模型。 数据仓库方法论为数据仓库项目的实施提供了参考。数据仓库开发生命周期包括项目规划、需求分析、设计、构造、项目部署和实施、技术培训和运行维护等几个部分。 数据仓库项目是同工程实践结合紧密的技术,数据仓库设计、开发方法必须同实践相结合,在工程过程中不断积累经验。只有采取正确的方法,数据仓库项目最终才不会失败。 作为实践项目,本文最后通过大学数据仓库项目的分析、设计,来阐述数据仓库的开发步骤和设计要点。重点是项目分析、需求理解和数据模型设计。实现相对简单,关键在于理解数据抽取中注意的问题、元数据的重要性、数据分割和粒度划分。