异构记录的高效实体识别算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tiantianaimeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,数据规模不断增大,特别是以计算机和互联网为基础的应用中数据爆炸式的增长,这也使得大量的异构数据的获得成为了可能。海量的异构数据带来丰富信息的同时,其本身的异构性也制约着数据的运用价值。为此,对异构数据进行清洗就非常必要。实体识别是数据清洗中非常关键的一步,它的任务是确定并合并属于同一个实体的记录。在很多情况下,原始的数据存储在异构的环境中。特别地,记录的模式各不相同。为了更好的利用这些异构记录,现在大多数方法假设模式识别和数据映射已经完成,从而将不同模式下的异构数据转化成同一模式下的同构数据。然而,我们发现在这种情况下模式信息会丢失信息,这些信息的丢失将会降低实体识别的结果质量。为了更好的利用来自异构数据源中的信息,我们提出了异构记录实体识别算法。首先,我们提出两个关键挑战:模式异构性和描述差异性,并且调研发现现在没有任何一种相似性度量或者它的变形能够被用于找到相似的异构记录对。因此,我们设计了一种比较合并的机制来迭代的发现属于同一实体的异构记录。对于实体识别的核心步骤:记录对相似度求解,我们设计了基于实例的和基于模式的两种算法,可以求不需要模式匹配的先验知识下求解记录对相似度。考虑到算法性能,异构记录和同构记录的识别都具有很高的固有复杂度,我们建立了高效的索引结构来加速算法。基于索引,我们设计了一系列有效的剪枝策略:我们为索引中每一个候选记录对计算出紧的上下界,在线性时间内生成相似记录对候选项;我们为基于实例的相似度求解算法设计了图剪枝策略。真实数据的实验结果表明了我们方法的可行性和高效性。
其他文献
随着传感器技术、无线通信技术以及分布式信息处理技术的进步,无线传感器网络(Wireless Sensor Networks, WSN)得以迅速发展,成为了计算机学科的一个新兴领域,具有十分广阔的
网络故障管理是衡量网络管理效率高低的重要指标之一,对设计高效的网络管理方案有着非常重要的意义。随着互联网的建设与蓬勃发展,网络在各行各业应用越来越广泛,与我们的日
骨质疏松症作为一个世界性的健康问题,已引起了越来越多的关注。骨质疏松症患者的骨骼不仅骨量减少,骨微结构也发生了改变,导致骨的脆性增高及骨折危险性增加。世界卫生组织(
增强现实技术是(Augmented Reality,简称AR)是将计算机生成的虚拟图形以三维对齐的方式实时注册于真实世界中,使用户从感官上确信虚拟环境是其真实环境的组成部分。AR在国防
随着智能终端、移动定位、无线通信等技术的快速发展,在交通、物流等应用领域,大量受路网约束的轨迹数据得以收集。对移动对象的信息处理和知识获取日益成为人们研究和关注的热
耗散粒子动力学计算(dissipative particle dynamics, DPD)是一种介于原子尺度与介观范围内的模拟方法。该模拟方法应用范围广泛,能够有效探讨分子的堆积与分散问题,不但可以
目前,神经科学方面的研究成果提供了很多关于生物学多层网络的知识。感知人工神经网络的学习(适应)过程就如同生物系统中的自主发育过程。研究表明,一个正常发育的人类视觉系统
随着网络上的数据爆炸式地增长,以及大量图数据的产生,图上的关键词查询得到了学术界的高度关注。图上的关键词查询算法不同于其他的关键词查询算法,其查询结果是原图的一个
随着互联网的快速发展,以及虚拟化技术的不断成熟,云计算作为一种新型商业计算模式,得到了迅猛发展,目前已成为企业和学者的研究热点,在科研,医学,网络安全等各个领域都有着
在物联网的关键技术分支中,射频识别(RFID,Radio Frequency Identification)技术是一种非接触的自动识别技术,已广泛应用在交通运输、工业自动化等众多领域,被誉为21世纪最具