论文部分内容阅读
随着信息技术的迅速发展,大量的数据不断涌现,不可避免的会引发质量问题,数据清洗是提高数据质量的重要手段,而相似重复记录检测是数据清洗研究的关键技术,因此对相似重复记录检测的研究具有重要意义。诸多学者对相似重复记录的检测算法做了大量研究,其中尤以基于滑动窗口的算法较为有效。该算法依据相似重复记录邻近的原理,将检测记录的比较记录数限制在有限的窗口数目内,从而大大提高检测效率。针对算法平等对待各字段和窗口大小设置没有统一标准的不足,论文研究了基于可变滑动窗口的相似重复记录检测算法。
论文研究的主要内容如下:
针对传统检测算法的低查准率、低查全率以及时间效率低的问题,论文提出基于可变滑动窗口的相似重复记录检测算法。首先通过综合加权法科学地计算属性的权重向量即:采用统计加权法计算字段的统计向量S;采用等级加权法计算字段的经验向量G;结合经验向量和统计向量计算权重向量W。然后给出确定存放相似重复记录集的可变滑动窗口大小的计算公式,通过计算相似重复记录之间的距离确定了窗口大小的上界;可变滑动窗口通过对相似重复记录进行聚类,解决了基于滑动窗口检测算法低查准率的问题。记录间的相似性判断首先通过使用编辑距离算法计算各字段的相似性,然后结合字段权重向量计算记录间的相似性。
针对传统编辑距离算法在基于语义的中文匹配方面的不足,论文提出基于语义的编辑距离算法。该算法利用中文分词算法对字段进行切分,以语义词组为单位计算字段的相似性,其同义替换的特点提高了检测精度。同时,采用基于字符串长度的过滤方法减少不必要的编辑距离计算,节省了检测时间,提高了检测效率。再通过采用多线程并发技术代替多轮次检测算法,提高了检测的时间效率。
论文最后结合实际的应用数据,测试了算法的有效性,并对检测结果进行详细分析。实验结果表明论文提出的算法提高了海量数据中相似重复记录检测的查准率、查全率和时间效率。