基于语义的相似性重复记录检测

来源 :中国电子商务 | 被引量 : 0次 | 上传用户:oncle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对数据清洗中存在的记录之间语义相似性问题,提出了一种基于语义的相似性重复记录检测方法。该方法在检测重复记录时,不仅考虑记录之间的句法相似性,还考虑了他们之间的语义相似性。
其他文献
目的:探讨临床医学本科一年级学生目标的内容、结构和反应强度。方法:采用整群抽样的方法,抽取某医科大学临床医学本科一年级学生共289名,随机分为两组,让第1组189名大学生按要求
日前,全国土方机械标准化技术委员会收到国际标准化组织ISO/TC127“土方机械技术委员会”秘书处通知,由国机重工天津工程机械研究院有限公司组织并负责起草的两项国际标准ISO
随着电力业的发展,低压配电系统在如今的供电系统中发挥着很大作用。现代电网事业中,由于人员操作不当以及电路老化的因素,常常会出现电路故障问题,其中包括线路的断路和短路故障
以6份不同耐旱性的青贮玉米自交系为材料,采用GR IFFING方法2的双列杂交,经通径分析,明确了青贮玉米籽粒产量耐旱系数的关键指标为根冠比、叶面积、叶绿素含量、光合速率4个
为了进一步研究猪细小病毒自然弱毒株(PPV-N株)的自然弱毒分子生物学机理,对PPV-N株VP2基因进行克隆、测序和原核表达研究。结果表明,成功构建PPV-N株VP2基因的克隆重组质粒pMD
第九届全国老年心理卫生学术研讨会将于2009年10月中下旬在云南昆明召开,会议主题为“老年心理卫生与积极老龄化”。欢迎广大老年心理卫生工作者积极投稿,踊跃参加会议。
我院自2001年1月~2006年6月期间,对颅脑损伤去骨瓣减压术后发生慢性脑积液的18例患者,采用脑室一腹腔分流术的同时进行钛网颅骨成形术,效果满意,报告如下。
本文介绍了网络信息安全的内容,阐述了网络信息安全的目标,分析了网络信息安全面临的问题.提出了保障网络信息安全的对策。
目的:考察个体和社会功能量表(Personaland Social Performancescale,PSP)中文版(PSP—CHN)在精神分裂症患者中的信度和效度。方法:收集165例符合DSM—IV—TR精神分裂症诊断标准的门
近年来,伴随着云计算、物联网两大革新技术的迅猛发展,信息产业又迎来了一次颠覆性的技术变革,“大数据”时代的到来,使数据以前所未有的速度不断增长和积累。大数据时代带来信息