改善数据仓库中数据质量的方法与应用

被引量 : 0次 | 上传用户:slgull
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着数据库技术的发展和应用,人们尝试对数据库中数据进行再加工,形成一个综合的、面向主题分析的环境,以更好地支持决策服务,从而形成了数据仓库。数据仓库的重点与要求是能够准确、安全、可靠地从数据源中取出数据,经过加工转换后,再供管理人员进行分析和决策,并为后续的数据挖掘和知识发现提供良好的数据环境。在数据仓库的构建过程中,作业量最大、日常运行问题最多的是把业务数据库中的数据抽取、转换和装载到数据仓库的工作,即ETL的过程。由于数据仓库系统的数据来自多个业务系统,数据源质量参差不齐,业务逻辑繁杂,因此在数据仓库的构建过程中不可避免的会产生数据质量问题。有些应用系统的开发更是因为数据质量太差,导致用户对数据的可信性、系统的可用性产生怀疑而失败。因此,数据质量是保证数据能够有效地发挥作用的关键。数据质量的保证贯穿于数据的整个生命周期,它是一个系统过程,是一个质量评估分析和各种数据清洗方法相结合的不断反复的过程。本文在湖南移动经营分析系统设计与开发的过程中,提出了利用ETL调度以及校验的方式来提高数据仓库中的数据质量的方法,并对涉及到的关键技术进行了深入探索:首先,利用ETL调度原理实现数据的自动化调度,使数据成为一个流动的数据流,数据所在的数据库作为ETL流的起点,保存高质量数据的数据仓库作为ETL数据流的终点。其次,对于已经形成ETL数据流的数据生成流实例信息,对完成ETL流程处理的数据构造历史信息,从而保证能够对ETL流进行监控。再次,构造ETL流程的处理逻辑,构造自动化的校验程序,使数据流流过时校验程序能够纠正错误数据,最终达到获得高质量数据的目的。最后,所提出的方法应用到湖南移动经营分析系统的建设中,经过项目的实施情况证明,非法数据在以ETL流的形式流经校验程序时都能够按照提前设定得到处理,保证了数据仓库中数据的准确性。
其他文献
黔东南苗族服饰中传统图案作为一种视觉符号元素,为当今的平面设计提供了丰富的设计素材,无论从图案的美学方面,还是从图案的文化意蕴方面都值得现代设计者去借鉴。在现代设
DIBR(Depth Image Based Rendering)算法的提出,使得3D视频只需要一个原始视点的纹理信息及其对应的深度信息就能绘制出新的虚拟视点,因此深度信息的精准与否将直接影响到绘
对土地规划进行改革与创新是时代发展的产物,是经济社会发展的需要,是国家统筹土地、生态、城乡等各方面发展的重要举措。在"多规合一"体系下对我国土地进行规划改革与创新是
基于变形协调方程和有限元法分析了压缩机活塞杆螺纹连接处的载荷特征,并给出了活塞螺纹连接处的疲劳强度校核方法。首先,根据弹性变形协调原理,分析工作过程中活塞螺纹联接
氨氮是常见的水体污染源,对生态环境和人类健康都会产生极大的危害。传统的氨氮废水处理技术存在二次污染、高能耗、占地面积巨大等缺点,支撑气膜膜吸收技术作为先进的氨氮分
在古诗词教学中,运用多媒体课件挖掘出古诗词的形与神,通过提高学生形象思维的能力,使其领悟诗句所表达的意境,从而提高学生对古诗词的鉴赏能力与审美能力。
目前随着我国经济的高速发展,政府运作的各项成本在逐渐增加,而其中的职务消费每年以巨大的数额增长,不断吸引社会公众和学者的注意。职务消费,是指国家公务人员在执行公务活
六安市地质结构比较复杂,断裂层较多,地质活动相对频繁,据资料显示,六安市发生的地震类型属于地质结构性地震,皖西学院位于淠河环绕的月亮岛上,而淠河沿岸沉积的黄色沙土,由
机械零件加工中误差不可避免,因此,在机械零件设计中,正确选用公差原则,能够有效提高设计质量,提高产品加工的工艺性和经济性。
水平井技术的蓬勃发展促使水平井牵引器技术不断进步。与先进国家该种技术日渐成熟相比,目前国内针对该种技术的研究还停留在逆向工程阶段。在轮式直进水平井牵引器的机械系统