论文部分内容阅读
在当今世界,企业信息化的要求越来越迫切,其中一个重要的方面就是企业的数据的管理。根据“进去的是垃圾,出来的也是垃圾”这条原理,为了支持正确决策,就要求所管理的数据可靠,没有错误,能准确地反映企业的实际情况,因此企业数据质量的管理正在获得越来越多的关注。
在现实中,数据一般都存在各种各样数据质量问题,含有各种类型脏数据。数据清理是提高数据质量的重要途径。针对这一课题,论文包括如下几个方面的研究工作:
·相似重复记录清理对于相似重复记录的清理,本文着重从重复记录识别和相似记录检测两方面进行了研究。重复记录识别本文主要研究了基本邻近排序方法和优先队列算法;相似记录匹配本文分析了几种核心的字段匹配算法,针对字段值的特点采用基于编辑距离的字段匹配算法,同时设计了利用有效权值和长度过滤的优化算法进行记录匹配,减少相似重复记录的检测时间,提高算法的效率。
·空缺数据清理对于空缺数据的清理,本文设计了一种清理方案。首先分析数据的可用性;然后删除不可用记录;最后,对可用记录通过选用填充空缺值的方法来处理该记录的空缺数据,从而完成数据源中空缺数据的清理。本文着重分析了判定树归纳的方法来处理空缺数据,并对判定树归纳法进行了变形。实验证明,判定树归纳变形算法速度快精度也较高。
·错误数据清理针对数据源中出现的错误数据,研究了如何采用业务规则这种方法来检测错误数据的重要性,并设计了将数据分类与平滑结合的算法去除噪声。这种算法既能对数据进行平滑,减少孤立点出现的可能,又不会出现因为进行平滑而改变了数据所处类的问题。
·数据清理框架结合以上所分析和研究的算法,本文设计了一种数据清理框架。它是集成了一系列数据清理方法,并能利用具体业务知识、可扩展的数据清理工具框架。这样方便使用者从丰富的数据清理工具中选择适合领域问题的清理方法,从而提高数据清理算法在不同应用中的清理效果。