论文部分内容阅读
本文述数据清理原理的基础上,着重从属性清理和记录清理两方面对数据清理进行了研究。在属性清理方面,为检测出异常的属性值,针对不同的数据类型采用了不同的方法,主要思想是利用元数据表对不同类型的属性值施加约束,将元数据表和应用程序结合起来检测异常的属性值;对于数据集中的缺失数据,研究了如何用贝叶斯分类方法来修补缺失值。
在记录清理中,改进了基于相似系数和的孤立点检测算法,改进后的算法不仅能检测出倍数异常孤立点,还能检测出分量异常孤立点,进一步提高了检测精度。此外,原有的相似重复记录检测算法在数据量大、错误多、单词间有相互影响,特别是单词中的插入、删除错误较多时检测能力不足。通过对原有方法的组合和改进,提出了一种高效的检测相似重复记录的方法,它能检测出常见的拼写错误如:插入、删除、替换、交换、单词交换,与以前的方法相比,此法时间复杂度小且精度有较大提高。