论文部分内容阅读
近年来,我国金融业、保险业、电信行业纷纷投入大量的精力、财力着手进行数据仓库项目的建设,它使人们从一个全新的角度认识到信息系统的重要性,也使人们发现了历史数据的价值。从此数据不仅仅用于检索,还可以用来分析整个企业(或组织)的运行状态以及未来的发展趋势,为决策和管理提供支持。但同时也发现一致、清晰、准确且可访问性、可用性较好的数据是数据仓库系统的基础。如何在数据仓库体系结构基础上进行集成和扩充,形成与数据仓库自身体系相适应的数据质量检测控制体系成为急需解决的问题。作为集团成员之一的湖北电信,决定以Teradada数据仓库平台为基础,并辅以Teradata Warehouse Miner数据挖掘解决方案,建立一套省级经营分析和决策支持系统,通过集中、稳定地整合全省1,800多万用户的数据信息,基于Teradata构建起以客户为核心的统一企业数据视图,以逐步实现由外延式发展向内涵式发展的转变。
本研究分析了目前的主要数据质量评估方法,指出了相对于业务系统而言,数据仓库环境下的数据质量评估的不同特点,即数据仓库中数据质量的时变特征、数据仓库中数据质量的放大效应及数据仓库中数据质量的用户角色特征,提出了基于因子分析数据质量评估模型。使用数据仓库中出现的数据质量问题作为初始变量,使用因子分析的方法抽象出数据质量评估指标,以及这些评估指标对数据质量的贡献率。将数据质量评估指标与数据仓库中的角色对应,利用因子分析的结果,更好地指导各种角色抓住主要矛盾,规范操作流程,从而保证数据仓库的数据质量。建立了数据质量监测和评估系统(DQCAS),以帮助数据仓库各角色监测和发现数据质量问题,提升企业级数据仓库的数据质量。