基于记录相似度估计的高效重复记录检测算法

来源 :2009中国计算机大会 | 被引量 : 0次 | 上传用户:a83017396
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息集成过程中出现的重复记录的存在为数据处理和分析带来了困难。重复记录检测已经成为当前数据库研究中的热点问题之一。基于二分图最优匹配的重复记录检测算法具有考虑到模式异构,支持多种数据类型等特点,适用于信息集成中的重复记录检测。然而,这种方法的不足之处在于其需要较大的时间开销,且由于其分类要求严苛,使得算法召回率受到影响.本文针对基于二分图最优匹配的方法存在的两个问题,基于编辑距离满足三角不等式以及记录相似度和属性相似度满足线性关系这两个性质,提出了一种基于记录相似度估计的高效重复记录检测算法,弥补了原始算法的两个缺点。理论分析和实验结果都表明了本文提出方法的正确性和有效性。
其他文献
在中国唐代文学史上,有一位年轻有为的文学家,他以“海内存知己,天涯若比邻”的诗句,向世人敞开他广阔无比的胸怀;他以一篇骈文《滕王阁序》,让南昌的一座楼阁栩栩生辉,跻身
他是中国互联网“水军”的带头大哥,著名网络营销专家,不仅捧红过流氓燕、芙蓉姐姐、二月丫头、一莲水清清、网络小胖等众多网络热点人物,还为百事可乐、联想、IBM、中粮集团等国内外著名企业做过网络推广案例。   在网络营销一夜暴富的神话面前,他却恪守职业操守,敢于和“网络黑社会”“网络暴力”等行业不道德行径划清界限。在错综复杂的网络江湖中,在亲眼目睹了太多杀人不见血的“谋杀”之后,他勇于掀起了规范和维护
关联关系搜索是语义搜索中的一种,可发现实体间复杂的关联关系。随着网络上语义资源的迅速增长,实体之间关联关系的个数可能会超过实体本身,因此,在多领域融合的语义搜索中,关联关
会议
答案排序是自动问答系统答案抽取部分的重要关键技术,答案排序结果的好坏直接影响到整个问答系统的性能,是自动问答系统研究中必须解决的重要问题。本文将监督学习的方法引入答
性能评价是一个虚拟现实手术模拟器走向实际应用需要研究的问题.本文以牙周科手术模拟器为研究对象,对性能评价问题进行了实验研究。研制了基于力反馈的牙周操作模拟系统,可模
会议
引入U-正交变换到图像无损编码应用中,研究U-正交矩阵的基本三角可逆矩阵(TERM)的分解与单行基本可逆矩阵(SERM)的分解.一个N阶U-正交矩阵能分解为8个TERBM与置换矩阵的积,且这
会议
基于分解的多目标进化算法MOEA/D是最近提出的一种高效率的计算框架,它将一个多目标优化问题分解成一系列单目标优化问题.根据相邻的子问题信息同时优化各个子问题,最终得到一
会议
给出了高速率室内UWB系统基于积分窗口能量收集算法的理论分析框架。首先得到等效信号接收模型,再使用MLSE均衡消除ISI。从等效接收信号模型可以看出,ISI干扰呈非对称的特点,
Web服务的语义建模是指对Web服务的属性、功能和结构等进行语义描述使用户能够对服务自动地定位、选择、使用和组合。本文以动作理论和描述逻辑为基础对服务的逻辑层信息(控
会议
藏文的信息化处理具有重要的理论意义和实用价值.本丈主要对藏文联机手写识别的流程和算法进行了讨论.对比了汉字联系手写识别的方法,本文提供了有效的改进方案和实验数据,包括