论文部分内容阅读
重复记录检测问题已有半个世纪的研究历史,这个问题所具有的重要实际意义以及挑战性使得其一直是一个非常热门的研究方向,吸引了包括统计学、生物学、数据挖掘、机器学习、人工智能、信息检索、知识工程、数据库等等领域的大量专家学者。本文对重复记录检测算法进行了研究,主要工作有: (1)对重复记录检测领域进行了广泛调研并详细综述了相关研究成果。首先将重复记录检测工作分为三个阶段,然后对各个阶段使用的技术和算法进行了归类整理,最后归纳总结了重复记录检测的评价标准和检测框架。 (2)针对一个典型的基于聚类的CSSN重复记录检测算法进行了算法效率改进。首先对CSSN算法的功能性能进行了实验验证,并详细分析了算法各步骤的时间复杂度,然后在分析基础上来降低算法的时间复杂度。实验表明,效率改进后的CSSN算法可以在基本不影响算法准确度的情况下将算法的时间复杂度从原来平方级的降低至近似线性的。 (3)对效率提高后的CSSN算法进行了通用性扩展。首先对CSSN算法的通用性局限进行了深入分析和实验验证,然后在实验分析基础上提出了模糊紧密集合等五方面的通用性改进措施。实验表明,通用性改进后的CSSN算法在各种重复度的数据集下均可达到很高的查准率和查全率。