ETL过程中的数据清洗技术研究与应用

被引量 : 34次 | 上传用户:nicenic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的抽取、转换和装入是创建数据仓库系统的重要环节,它将组织机构内多元分散的数据按照主题统一装载到数据仓库中,能够很好地解决组织机构内部数据一致性与信息集成化问题。然而,ETL程序的频繁运行难免会产生大量的“脏数据”,直接导致数据仓库技术由于数据质量而不能产生理想正确的决策分析结果,因此数据在进入数据仓库之前需要进行清洗。数据清洗技术一直是近年来数据仓库领域中的研究热点,其主要任务是从原始数据集中去除不一致的和错误的数据。 首先描述了数据质量的基本概念、评价指标及分类等问题,在此基础上按照数据清洗算法将脏数据划分为“独立型脏数据”、“依赖型脏数据”两类,并给出了相应的解决方法。其次描述了清洗的基本定义及清洗环节,定义了ETL层的数据清洗模型和在元数据库中存储的清洗规则后,提出了一种自动清洗和人为清洗相混合的数据清洗策略。 针对中文地址类信息的数据清洗问题,提出了基于特征字符的分词方案,并给出了相应的分词算法。该方案将中文地址类信息按逻辑意义分为省、市、区、街及数字五组信息,通过与元数据库中省、市、区的标准信息匹配保证了分词的准确性。 针对中文地址类相似重复记录的处理问题,建立了包含分词规则的元数据库,提出了一种相似重复检测模型,并给出了利用可变权值策略计算中文地址类信息相似度的算法。实验结果表明该方案能有效解决中文地址类重复信息的检测,提高了算法的执行效率及检测精度。
其他文献
在有一亿三千多万老年人的中国,人口老龄化发展速度是全世界最快的,而专门针对老年群体的生活用品设计与开发还很欠缺。在国外,老龄产业被称为“银色产业”和“金色市场”,已经有
与国内外发达城市相比,哈尔滨市配电网起步较晚,而且线损较高。通过城市配电网改造,不但可以取得显著的经济效益,而且能有效提高供电可靠性,改善电能质量。而配电网规划是城
沸腾液体扩展蒸汽云爆炸(BLEVE)是液化烃介质压力容器处于火灾环境而极易发生的一类多米诺效应灾难事故。本文针对液化石油气(LPG)卧罐,考虑LPG热力学性质与安全阀泄压过程,构建一
随着Internet的迅速发展,网络成为当今世界最大的信息库,它为信息共享和资源共享提供了一个良好的平台。然而大量的网页资源和网页的动态特性要求信息搜索系统不断升级,同时
基因芯片技术是20世纪90年代末兴起的一项前沿生物技术。它是指将大量靶基因或寡核苷酸片段有序地高密度地排列固定于玻片、硅片等固相载体上,然后与待测的标记样品的基因按
出入境检验检疫制度是涉外经济法律制度的重要组成部分。我国入世后,检验检疫措施在调控我国对外贸易方面起着越来越重要的作用,这种做法在世贸组织成员中也越来越普遍,且有愈演
住房问题一直是世界各国政府非常关注的重要问题,住房问题解决得如何关系到社会的稳定,经济的繁荣。随着市场经济的不断发展,我国居民的收入水平和生活质量得到了提高,居民在商品
本文从分析公司治理含义的角度,论述了经理革命的由来;通过比较中外激励与约束机制的不同,分析了我国公司治理中激励与约束机制的不足和原因;文章最后提出必须加强外部公司治
人类经济活动的不断发展,使得地下水与岩土体相互作用,由此经常引发地质灾害。影响地质灾害的因素有很多,其中最主要的是水文地质环境。论文探讨了水文地质因素对地质灾害的
采用遥感技术对2000年和2005年玛纳斯县域人类主要活动区各类景观进行比对分析,结果发现:研究区内耕地、城镇景观面积出现大幅增长,林地、草地景观面积显著下降,“农林”同“