论文部分内容阅读
在当今世界,企业信息化的要求越来越迫切,其中一个重要的的方面就是企业的数据的管理,根据“进去的是垃圾,出来的也是垃圾、(garbage in,garbage out)”这条原理,为了支持正确决策,就要求所管理的数据可靠,没有错误,能准确地反映企业的实际情况,因此企业数据质量的管理正在获得越来越多的关注。数据清洗是提高数据质量的重要途径。 数据仓库的应用是企业信息化程度的重要体现。数据仓库是面向主题的、集成的、不可更新的、随时间不断变化的数据集合。它是决策支持的基础,数据仓库中数据的正确性对于避免做出错误的决策是至关重要的。但是,由于数据仓库中的数据来自多种业务数据源,这些数据源可能是存储在不同的硬件平台上,使用不同的操作系统,因而从这些数据源中获取来的数据中不可避免地存在一些不一致的数据。数据清洗的目的就是要解决由上述原因产生的数据质量问题,因此数据清洗被认为是建立数据仓库所要解决的最重要的问题之一。数据质量问题中的一种常见情况是一个现实实体可能由多个不完全相同的记录来表示,这样的记录被称作相似重复记录(approximately duplicated records)。检测和消除相似重复记录是数据清洗和提高数据质量要解决的主要问题之一。探测相似重复记录的过程也被称为记录匹配过程。 本文在对当前的数据清洗问题,特别是探测和消除重复记录方面,做了充分的研究后,提出了基于RDBMS的记录匹配方法和消除数据仓库中相似重复记录的方法,以期消除数据仓库中的相似重复记录。通过大数据量的实验,证明本文提出的消除相似重复记录的方法是行之有效的。