论文部分内容阅读
近年来,随着数据库技术的发展和应用,人们尝试对数据库中数据进行再加工,形成一个综合的、面向主题分析的环境,以更好地支持决策服务,从而形成了数据仓库。数据仓库的重点与要求是能够准确、安全、可靠地从数据源中取出数据,经过加工转换后,再供管理人员进行分析和决策,并为后续的数据挖掘和知识发现提供良好的数据环境。在数据仓库的构建过程中,作业量最大、日常运行问题最多的是把业务数据库中的数据抽取、转换和装载到数据仓库的工作,即ETL的过程。由于数据仓库系统的数据来自多个业务系统,数据源质量参差不齐,业务逻辑繁杂,因此在数据仓库的构建过程中不可避免的会产生数据质量问题。有些应用系统的开发更是因为数据质量太差,导致用户对数据的可信性、系统的可用性产生怀疑而失败。因此,数据质量是保证数据能够有效地发挥作用的关键。数据质量的保证贯穿于数据的整个生命周期,它是一个系统过程,是一个质量评估分析和各种数据清洗方法相结合的不断反复的过程。本文在湖南移动经营分析系统设计与开发的过程中,提出了利用ETL调度以及校验的方式来提高数据仓库中的数据质量的方法,并对涉及到的关键技术进行了深入探索:首先,利用ETL调度原理实现数据的自动化调度,使数据成为一个流动的数据流,数据所在的数据库作为ETL流的起点,保存高质量数据的数据仓库作为ETL数据流的终点。其次,对于已经形成ETL数据流的数据生成流实例信息,对完成ETL流程处理的数据构造历史信息,从而保证能够对ETL流进行监控。再次,构造ETL流程的处理逻辑,构造自动化的校验程序,使数据流流过时校验程序能够纠正错误数据,最终达到获得高质量数据的目的。最后,所提出的方法应用到湖南移动经营分析系统的建设中,经过项目的实施情况证明,非法数据在以ETL流的形式流经校验程序时都能够按照提前设定得到处理,保证了数据仓库中数据的准确性。