论文部分内容阅读
数据清洗在数据挖掘中占有越来越重要的地位,相似重复记录的检测是数据清洗的核心任务。对于语义重复记录的检测,至今没有成熟的算法,本文首先利用本体在语义处理方面的优势,提出了一种基于本体的数据清洗系统,从理论上对语义重复记录检测进行尝试。
由于传统相似重复记录检测算法在处理簇形状不均匀、相似重复记录分布较复杂的大数据集时准确性不高,本文重点提出利用CURE算法效率较高,可以处理任意形状的簇,对于孤立点数据不敏感的优点,将其用于相似重复记录的检测并对CURE算法进行改进。提出了预抽样(pre-sampling)概念,可以有效地确定数据集中相似重复记录的分布情况,提高随机抽样的准确性。并针对CURE算法选取代表点的不足,提出了一种基于距离影响因子的代表点选取方法,较好地反映了簇的形状,提高了代表点选取的合理性。
最后,利用改进算法构建了相似重复记录检测模型CIMDR,详细分析了模型的运行过程。理论和实验表明,与传统算法相比,改进算法在相似重复记录检测方面的准确性和效率都得到了提高。