一种高效的检测相似重复记录的方法

来源 :计算机学报 | 被引量 : 0次 | 上传用户：weizx20090123

【摘要】

：

如何消除数据库中的重复信息是数据质量研究中的一个热门课题.文中提出了一种高效的基于N-Gram的检测相似重复记录的方法,主要工作有：（1）提出了一种高效的基于N-Gram的聚类算法,

【作者】

：

邱越峰田增平季文贇周傲英

【机构】

：

复旦大学计算机科学系

【出处】

：

计算机学报

【发表日期】

：

2001年1期

【关键词】

：

信息集成相似重复记录聚类数据质量数据库 information integration approximately duplicated record

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

如何消除数据库中的重复信息是数据质量研究中的一个热门课题.文中提出了一种高效的基于N-Gram的检测相似重复记录的方法,主要工作有：（1）提出了一种高效的基于N-Gram的聚类算法,该算法能适应常见的拼写错误从而较好地聚类相似重复记录，复杂度仅为O(N)；同时提出了该算法的改进形式,使其在检测的同时能自动校正单词的插入、删除错误，提高检测精度.（2）采用了一种高效的应用无关的Pair-wise比较算法，该算法以单词间的编辑距离为基础，通过计算两记录中单词间的编辑距离来判断记录的相似与否.（3）给出了一种改

其他文献

清除Win95无盘工作站的乱码

期刊

WINDOWS95无盘工作站乱码NT网

“汉化”诺基亚8210不是梦

期刊

诺基亚8210手机移动通信中文电话本

装点你的梦——Dreamweaver插件精选

期刊

DREAMWEAVER插件网页制作工具INTERNET

数字图像的自适应公开水印技术

该文提出一种以灰度层图案作水印的自适应公开水印(public watermarking)技术.这种技术在不可感知性和稳健性等方面面临着更大的挑战,而探索图像新的稳定特征并结合人类视觉