多数据源环境下重复记录检测问题的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:oogt715
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据质量管理如同产品质量管理一样贯穿于数据生命周期的各个阶段,在许多领域中,如商业、体育、音乐、旅游等,有大量的数据源提供的数据信息重复。这些重复记录会给系统的用户在很多方面造成不便(如数据冗余、不一致、额外的资源耗费等),导致系统的可用性降低。因而需要我们能正确快速的将一个数据集合中的重复记录识别出来。当前的重复记录检测工作主要考虑如何在相同模式下做重复记录的检测工作,而面对大量的模式异构的记录时,首先要做模式匹配,将模式统一之后,在统一的模式下做重复记录检测的工作。但是当记录集合来自于大量异构数据源,且其中存在着模式未知的情况时,重复记录检测检测工作则变得十分困难。为了能够正确有效地处理这种情况,本文提出了基于二分图匹配的相似度度量方法和重复记录检测方法。本文研究了包含数据模式异构复杂并且模式信息缺失的的数据集合上的重复记录检测问题,在第二章提出了适合该情况的基于二分图匹配的相似度度量,并以此为基础在第三章提出了适用于上述情况的重复记录检测算法。基于二分图最优匹配的重复记录检测算法具有考虑到模式异构,支持多种数据类型等特点,适用于大量异构数据源情况的重复记录检测。然而,这种方法的不足之处在于其需要较大的时间开销,且由于其分类要求严苛,使得算法召回率受到影响。第四章针对基于二分图最优匹配的方法存在的两个问题,基于编辑距离满足三角不等式以及记录相似度和属性相似度满足线性关系这两个性质,提出了一种基于记录相似度估计的高效重复记录检测算法,弥补了原始算法的两个缺点。理论分析和实验结果都表明了本文方法的正确性和有效性。
其他文献
随着空间信息技术的发展,越来越多的网络应用服务需要以空间信息为基础,在这种背景下,G/S模式应运而生,为海量、多元、异构空间信息的组织、管理、展示和描述提供了新的解决
在网格资源管理中,越来越多用户对资源提出了不同的QoS需求。大多数现有的网格资源管理系统采取的调度策略仅以提高系统或资源的利用率以及在最早时间内完成任务为目标,或者
目前,卫星遥感图像在生产和生活中得到了广泛的应用。卫星遥感图像较高的使用价值和商业价值,使得对卫星遥感图像的控制流转也越来越被重视。本文的研究目的在于解决卫星遥感图像在其生命周期中各个阶段所面临的安全问题。本文根据以前电子文档安全保护项目的经验,并结合卫星遥感图像的特点,提出了一个贯穿卫星遥感图像整个生命周期的安全解决方案。该方案主要完成两个任务:访问控制及图像版权的识别。围绕第一个任务,本文首先
随着电信业务、电子商务、办公自动化以及企业计算等领域的发展,产生了Web服务技术。Web服务组合是Web服务技术的主要研究内容,主要是为了满足用户或企业的复杂请求。为了使
伴随着互联网及应用和服务的普及,网上信息量以带宽的指数级增长,互联网用户信息检索的难度和复杂度也不断提高。因此,搜索引擎越来越引起人们的重视和关注。Google曾宣称它
伴随着经济的不断发展,人们生活质量的不断提高,紫外线也成为很多人关注的焦点。紫外线做为防晒的重点,它也有着其他的功效。紫外线已经在医学、工业、军事、养殖等很多领域
随着互联网的高速发展,Web已经成为世界上最大的信息来源。如何获取有用的Web信息则是大家面临的共同问题,Web信息抽取就是针对这一问题而提出的。目前大部分信息抽取仅停留
随着网络的飞速发展,许多新的多媒体应用开始涌现,如网络会议、视频点播、远程教学等,传统的单播和广播已不能满足其需求,组播技术便应运而生。另一方面,IP网自身存在的安全
“计算机组成原理”是计算机专业的一门重要课程。该课程涉及学科知识较多,需要硬件,软件,数字电路,程序设计方法学等课程的支撑,对学生的综合理解能力要求较高。亲自参与该门课程
用偏微分方程构造曲面,作为计算机图形学曲面造型方法的一种,在构造过渡面、自由曲面、功能曲面设计方面有很重要的应用价值。此方法的特点是将所求曲面看作是某偏微分方程边