基于数据仓库的数据清洗方法研究

被引量 : 42次 | 上传用户:aiwoba9982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今世界,企业信息化的要求越来越迫切,其中一个重要的的方面就是企业的数据的管理,根据“进去的是垃圾,出来的也是垃圾、(garbage in,garbage out)”这条原理,为了支持正确决策,就要求所管理的数据可靠,没有错误,能准确地反映企业的实际情况,因此企业数据质量的管理正在获得越来越多的关注。数据清洗是提高数据质量的重要途径。 数据仓库的应用是企业信息化程度的重要体现。数据仓库是面向主题的、集成的、不可更新的、随时间不断变化的数据集合。它是决策支持的基础,数据仓库中数据的正确性对于避免做出错误的决策是至关重要的。但是,由于数据仓库中的数据来自多种业务数据源,这些数据源可能是存储在不同的硬件平台上,使用不同的操作系统,因而从这些数据源中获取来的数据中不可避免地存在一些不一致的数据。数据清洗的目的就是要解决由上述原因产生的数据质量问题,因此数据清洗被认为是建立数据仓库所要解决的最重要的问题之一。数据质量问题中的一种常见情况是一个现实实体可能由多个不完全相同的记录来表示,这样的记录被称作相似重复记录(approximately duplicated records)。检测和消除相似重复记录是数据清洗和提高数据质量要解决的主要问题之一。探测相似重复记录的过程也被称为记录匹配过程。 本文在对当前的数据清洗问题,特别是探测和消除重复记录方面,做了充分的研究后,提出了基于RDBMS的记录匹配方法和消除数据仓库中相似重复记录的方法,以期消除数据仓库中的相似重复记录。通过大数据量的实验,证明本文提出的消除相似重复记录的方法是行之有效的。
其他文献
公民道德建设是现代中国特色社会主义建设的伟大工程,也是现代伦理学界关注与研究的一个基本课题。 公民道德建设作为当今中国时代精神的伟大实践,首先需要对其与经济、政治
近年来,我国的音乐分析主要借鉴运用西方的分析方法论体系对音乐做定量化研究,这存在着单向度危机,东方学与后殖民文化、科学逻辑的单线化弊端,以及学科综合视野的滞后等问题。我
本文简要介绍了碳纤维工业的发展概况,对比分析了国内外纤维素碳纤维及其原丝的基本性能和研究状况,总结了纤维素结构与性能的研究成果和高性能纤维素纤维的制备工艺。为了制备
我国是世界上面积最广、资源最多、利用最早的竹业国家。竹子种类、竹林面积和蓄积量均居世界之冠。竹子具有生长快、产量高、用途广、效益好、周期短的独特优势。在科技进步
<正>在海洋地球物理专家的呼吁和支持下,通过论证,国家科委在863计划中安排在东海进行地震双船合成排列(Synthetic Aperture Profile简称“SAP”)和扩展排列(Expanded Spread
会议
<正>醒脑开窍针刺法是石学敏院士提出的治疗脑梗死(中风)的中医疗法,经多年的临床与基础研究,已经形成以醒脑开窍针刺法为主的脑梗死综合诊疗体系。有关醒脑开窍针刺法的报道
随着我国社会经济水平的不断提高,在不断追求经济效益的同时,也开始对生态环境保护给予高度的重视,特别是对于不断发展的工业领域来说,实现清洁生产和节能减排是其实现现代化发展
当前,我国正在推进基础教育课程改革,为了科学、有效地实施新课程教学,广大教师必须树立与新课程相适应的教学观念,掌握新课程的教学策略。有效教学的理念与策略便是其一。本文从
本选项来源于“湖北民营企业融资预警系统研究”课题,该课题编号为2002AA401C21。 民营企业已成为我国经济中的一个新的增长点。不仅如此,它在提供就业机会,搞好国有企业改革
企业的债务问题在一定程度上反映着企业的经营状况和企业信用程度,也反映着一个国家的经济秩序。理论研究和实践表明解决债务问题的基本思路是债务重组。我国国有企业债务负担