一种基于核心词相似度的重复数据检测框架构建

来源 :信息系统工程 | 被引量 : 0次 | 上传用户:nannalee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对数据清洗过程中的重复数据问题,以企业名称的相似重复度检查为例,提出一种利用核心词相似计算的重复数据检测框架构建。通过对相似重复数据进行分词程序处理和特征属性字典映射,提取核心词,再对核心词作相似度计算,所得结果加权求和得出相似度,以相似度阈值来判别是否重复。实验表明,该框架可有效用于重复数据检测,具有工程实用性。
其他文献
南海是西太平洋的边缘海盆之一,其构造样式丰富、变形复杂。前人对南海的成因和演化开展过大量的工作,提出了不少假说或模型,但这些假说或模型均存在这样或那样的问题,表明模
小学作文起步阶段的一个重要任务就是激发学生的习作兴趣。多年来,在习作起步阶段笔者大胆实践,不断探索、积累和总结,现将习作起步阶段的教学体悟分析如下。  一、依据学情创情境,激发学生习作兴趣  1.多做预设,培养兴趣  习作教学起步阶段的三年级教材,由简单的写话教学上升到“片断”的起步教学。在教学中,教师要深研教材,引导学生“围绕一句话把一段话写具体”,如《赵州桥》一课,课文的第二段先总写了赵州桥的
21世纪是信息化社会,信息日益成为社会发展的决定行力量和主导性因素。对大学生进行信息素质教育,是新时期赋予高校图书馆的新的教育任务。高等学校图书馆是学校的文献信息中心
建筑材料商消耗问题会引发多种环境问题,与可持续发展理念不符,绿色建筑理念应运而生,节能技术在生产过程中得到推广应用。接下来简单阐述绿色建筑理念与建筑节能技术,并探讨其具
随着信息技术的快速发展,网络在线开放课程应运而生。在线课程是利用互联网技术,将课程资源等多媒体课件上传至服务器端,客户端通过网络访问服务器资源,进而获取知识的一种新
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
现代高等教育所提倡的素质教育的目的在于受教育者的全面发展,能融入社会并适应社会的发展。要达到这个目的,除了在大学课堂教育中要注重对学生的全面素质培养以外,还应该大
随着社会的进步,民事纠纷的种类在多样化,内容在复杂化,为更好地解决民事纠纷,产生了各种各样的纠纷解决机制。在多元纠纷解决机制中,行政机关处理民事纠纷已成为一种普遍的
信息化背景下,为全面落实党和国家关于创新创业人才培养的重要部署,构建三创型人才培养体系成为高校公共艺术类专业转化自身优势实现跨越式发展的必然趋势。公共艺术专业学生
人的成长过程受多种因素的影响,小时候主要受家庭和学校的影响,长大后主要受家庭和社会的影响。不管在什么时候家庭环境的影响对每个人的成长都起着重要的作用。家庭是一个孩