数据质量分析方法及其在银行系统中的应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:xjfox1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库的架构大体可以分为三部分:后台是数据存储和计算引擎,前端是数据展现分析的用户界面,还有一个重要的部分就是ETL.ETL所完成的工作主要包括三方面:首先,在数据仓库和业务系统之间搭建起一座桥梁,确保新的业务数据源源不断地进入数据仓库;其次,用户的分析和应用也能反映出最新的业务动态,虽然ETL在数据仓库架构的三部分中技术含量并不算高,但其涉及到大量的业务逻辑和异构环境,因此在一般的数据仓库项目中ETL部分往往也是牵扯精力最多的;第三,如果从整体角度来看,ETL主要作用在于屏蔽了复杂的业务逻辑,从而为各种基于数据仓库的分析和应用提供了统一的数据接口,这也是构建数据仓库最重要的意义所在.ETL的过程分为抽取、转换、装载三个步骤.数据抽取、转换是根据新旧系统数据库的映射关系进行的,而数据差异分析是建立映射关系的前提,这其中还包括对代码数据的差异分析.转换步骤一般还要包含清洗的过程,数据清洗主要是针对源数据库中,对出现二义性、重复、不完整、违反业务或逻辑规则等问题的数据进行相应的清洗操作.在数据清洗之前需要进行数据质量分析,以找出存在问题的数据,否则数据清洗将无从谈起.数据质量分析是ETL过程的一个重要组成部分,数据装载是通过装载工具或自行编写的SQL程序将抽取、转换后的结果数据加载到目标数据库中.该文详细分析了ETL技术的相关内容,结合Ascential Datastage研究了ETL技术在银行信用系统项目中的应用,其中重点研究了数据清理方法、数据质量分析过程和数据质量分析方法,根据实际项目的应用提出了数据质量分析和方法和数据质量分析的管理过程.
其他文献
行人再识别作为公共场所视频监控中最重要的技术之一,受到了研究者的广泛关注。目前,行人再识别方法普遍通过提取行人的颜色、纹理、形状等低层特征来进行行人的区分,而行人
粗糙集最初由Pawlak提出,它是基于不可分明关系来对信息分类,进而处理不精确、不确定与不完备数据。它在人工智能,数据挖掘和知识发现等领域得到了广泛的应用。而模糊集理论
本文在对目前多agent计算本质分析的基础上,基于二分图的理论,建立了多agent并行计算模型。构建了动态的多agent系统。主要包括如下工作: (1) 基于二分图的理论,构建了多agent
如今,平板电脑,智能手机,Mac电脑等已经越来越多的进入了人们的生活,以往Window和Intel的组合不再独大。为了使得很多应用程序一次编写之后都可以在各种平台运行,类似于Java这种中
地图服务平台是基于基础WebGIS开发和运行环境的二次开发平台,本文中讨论的地图服务平台是基于ArcIMS,由构件层和连接器组成,面向应用开发,提供通用的地图功能。基于地图服务平台
目前尽力而为的服务已无法满足Internet上多媒体应用和各种用户对网络传输质量的不同要求,提高网络资源利用率、为用户提供更高服务质量为目标的研究领域极具活力。Internet工
随着Internet基于多播技术的新业务的不断涌现和宽带通信技术的飞速发展,研究和设计高性能、高速度的交换、路由设备,以高的吞吐率和服务质量,来满足日益增长的网络转发任务量的
在信息时代的今天,互联网应用已渗透到各行各业乃至在日常生活中。在这种趋势下,电子商务高速发展,而在网络上投放广告已经成为电子商务重要的营销方式。然而目前,粗放的广告投放
Internet近年来有着飞越的发展,给人们的生活带来了前所未有的变化,一个鼠标动作就可以在瞬间完成很多以前不敢想象的事情。但是现在使用的IP协议大部分还是在1981年制定的IPv4
随着GIS技术的发展,出现了GIS与主流IT技术、无线通信技术加速融合的趋势。而无线移动位置服务技术的兴起,标志着GIS技术由面向部门级、企业级的应用转向面向大规模社会化服务