论文部分内容阅读
当重复记录检测算法对大型数据库进行处理时,由于需要多次扫描数据库,时空消耗较大且效率较低。为了提高检测算法的效率,在区域无关扫描算法的基础上提出了交互过滤扫描算法。该算法在关键字排序上提出了按键盘字母顺序的排序规则,可缩小了重复记录之间的距离,减少比较次数。存两条记录应用字符串模糊匹配算法进行比较前,根据用户提供的相似度对数据库中的记录进行过滤处理。可避免数据库中差异度较大的两条记录在模糊匹配中的时间消耗。实验证明该算法的性能要优于区域无关扫描算法。