论文部分内容阅读
随着中国邮政速递业务规模的扩大,数据量随之急剧增长。在1991-2005年所建的基于数据库的存储系统已经不再适应业务的发展。中国邮政速递面临着数据一致性,信息时效性,数据完整性等问题。数据仓库因面向主题,具备集成性、稳定性和保存历史数据这些特点,它的建立能为这些问题带来解决方案。中国邮政速递采取Teradata数据仓库技术为其搭建数据仓库,ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)是实施数据仓库的重要步骤,它按照统一的规则集成并提高数据的价值,负责完成数据从数据源向目标数据仓库转化的过程。作者基于中国邮政速递数据仓库建设工程,首先对数据仓库概念,实时数据仓库技术特点,Teradata数据仓库和Teradata数据仓库实施论进行了介绍。其次对数据仓库三个主要数据源进行了分析,根据业务,划分了数据仓库6大主题域,设计了数据仓库核心模型层。之后,根据业务需求和模型层的设计,对ETL架构进行了整体设计,通过对项目中使用的ETL自动化工具Teradata Automation的抽象,归纳了自动化流程设计,并对ETL框架中的各类作业进行了设计和命名规范。然后,根据ETL的设计,具体实现了数据抽取,数据加载,加载监控,数据清洗和校验,数据转换功能,并对作业进行了测试和优化。最后,对系统运行情况和论文进行了总结,并对邮政速递数据仓库在模型改进,元数据管理,系统性能改善这三方面提出了建议。希望通过本文的工作,能给新行业数据仓库ETL设计和开发带来一定的启发。目前,中国邮政速递数据仓库已经投入使用,数据仓库的规模已达到28T,并且平均每日数据增量为30G,查询普遍在3秒以内,CPU以及磁盘IO倾斜率均在正常范围,整体性能满足业务需求,有效提升了中国邮政速递的品牌。