Fast Semantic Duplicate Detection Techniques in Databases

来源 :软件工程与应用(英文) | 被引量 : 0次 | 上传用户:liunian2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Semantic duplicates in databases represent today an important data quality challenge which leads to bad decisions. In large databases, we sometimes find ourselves with tens of thousands of duplicates, which necessitates an automatic deduplication. For thi
其他文献
辛亥革命时期,以孙中山为首的革命党人在鼓动排满革命的同时,着力宣传“民主共和”建国主张。在国内,上海租界这一清末政坛的“中间地带”成为当时主要宣传阵地之一。本文收
<正>(2010年4月15日)刚才,田庚同志传达了韩部长的重要批示,我们一定要深刻领会,抓好落实。今天,我们在这里首次举办部属事业单位党政"一把手"财务管理能力建设培训班暨2010
对不同形式的离心式风扇进行有限元对比分析,为在电机风扇选型中提供了重要的理论依据,提高了电机正常运行时的可靠性能,从而在根本上延长电机的使用寿命,提高电机的相关性能
<正> 嗅觉是嗅觉感受器受化学气体刺激而引起的感觉。人的嗅觉感受器是由上亿个嗅细胞所组成,嗅细胞上长有大量嗅毛,这些嗅毛伸向鼻腔表面的粘液中;带有气味的物质溶解在鼻腔
期刊
<正> 以往认为糖皮质激素(GC)通过和胞浆内受体结合形成复合物进入胞核,受体亚基与DNA及非组蛋白发生作用调节mRNA的生成,mRNA进入胞浆,诱导特异蛋白质的合成,产生抗炎、免疫
This paper presents an efficient pattern matching algorithm (FSW). FSW improves the searching process for a pattern in a text. It scans the text with the help o
利用基因治疗建立自体动脉旁路钱虎声,陈诗书(上海第二医科大学,上海200025)关键词基因治疗,动脉旁路,血管内皮生长因子动脉粥样硬化闭塞引起的慢性下肢动脉缺血是临床常见的疾病。患者不
针对大学物理实验教学学生数量多、实验设备多、设备种类多、教学人时量大、教学场地分布广、教学文档繁杂、教师数量少、实验技术人员少、教学交互方式及教学管理模式单一的
<正> 阳离子脂质体是指表面带正电荷的脂质体,1987年Felgner等人用人工合成的阳离子去垢剂N-[1-(2,3-dioleyloxy)propyl]-N,N,N-trimethylammonium choloride(DOTMA)和二油酰
实现一种基于语音感知特征参数动态规整失真度量的客观侵入式语音质量评估算法,该算法分为特征提取、失真度量、MOS映射三个步骤。算法的创新在于:特征提取过程中选取更能表征