一种高效的检测相似重复记录的方法

来源 :计算机学报 | 被引量 : 0次 | 上传用户:weizx20090123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何消除数据库中的重复信息是数据质量研究中的一个热门课题.文中提出了一种高效的基于N-Gram的检测相似重复记录的方法,主要工作有:(1)提出了一种高效的基于N-Gram的聚类算法,该算法能适应常见的拼写错误从而较好地聚类相似重复记录,复杂度仅为O(N);同时提出了该算法的改进形式,使其在检测的同时能自动校正单词的插入、删除错误,提高检测精度.(2)采用了一种高效的应用无关的Pair-wise比较算法,该算法以单词间的编辑距离为基础,通过计算两记录中单词间的编辑距离来判断记录的相似与否.(3)给出了一种改
其他文献
该文提出一种以灰度层图案作水印的自适应公开水印(public watermarking)技术.这种技术在不可感知性和稳健性等方面面临着更大的挑战,而探索图像新的稳定特征并结合人类视觉
VBR视频传输的突发性是影响ATM网络服务质量的关键因素,文中通过模糊控制方法对视频传输流量的阈值进行监控,实现了接入的平滑并可动态调整传输速度.文中以传输流量及突发级作
目的分析近年南京地区无偿献血HBsAg阳性情况,为制定招募策略提供依据。方法收集2014至2016年我血液中心无偿献血初筛者相关资料,统计HBsAg阳性率,并对HBsAg阳性献血者按照相
目的探讨血清异常凝血酶原(DCP)、甲胎蛋白(AFP)、α-L-岩藻糖苷酶(AFU)检测诊断原发性肝癌(PHC)的价值。方法检测21例PHC患者(肝癌组)和22例良性肝病患者(良性肝病组)血清中