面向异构大数据集成的实体识别技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：namezhu

【摘要】

：

随着信息化时代的到来,各行各业都产生和积累了大量的数据,人们不仅需要管理和操作这些数据,更重要的是将这些异构的数据进行关联、集成之后,进行相应的分析能产生巨大的价值

【作者】

：

张福麟

【出处】

：

北京邮电大学

【发表日期】

：

2018年01期

【关键词】

：

大数据集成实体识别分块实体匹配

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息化时代的到来,各行各业都产生和积累了大量的数据,人们不仅需要管理和操作这些数据,更重要的是将这些异构的数据进行关联、集成之后,进行相应的分析能产生巨大的价值。大数据集成中用到关键技术之一就是实体识别,也是大数据集成的基础。在海量、异构、含噪音的大数据环境中的实体识别工作,一般需要使用模式无关的分块技术降低两两匹配的记录数,同时又需要能够快速高效完成实体匹配工作。因此,本文针对大数据集成中的实体识别技术,主要研究其分块技术和匹配技术两部分。第一、针对实体识别工作中传统的依赖先验知识的分块算法无法应用到大数据集成工作中这一问题,本文研究提出了一种基于token的模式无关的分块技术,通过增加冗余比较来完成海量、异构、含噪音的大数据环境中的分块工作;同时,在Meta-blocking技术基础上提出了一种新的基于累积权重的剪枝方案,能够进一步帮助降低分块后块内产生的冗余比较,进而达到提升效率的目的。最后在真实数据集上通过仿真实验验证,将所设计的基于token的模式无关分块技术和基于累积权重的剪枝算法与已有的技术做了分析对比,实验结果证明本文算法能够高效的在异构、噪音环境中完成分块工作,是可行的、合理的。第二,针对实体识别中实体匹配阶段的效率问题,本文基于局部敏感哈希的思想扩展了传统的N-gram算法,并重新定义了传统的基于海明距离的局部敏感哈希算法中的距离度量公式,解决了局部敏感哈希算法无法应用到短记录匹配中的缺陷。通过这些技术,既能应对大数据环境中的噪音问题,又能够在实体匹配中使用局部敏感哈希技术达到快速完成记录匹配的目的。最后在数据集上通过仿真实验验证,将所设计的基于局部敏感哈希的N-gram算法与已有的技术做了对比分析,实验结果证明本文的算法能够有效提升实体匹配工作的效率,是可行的、合理的。

其他文献

基于积极心理学理念的学生心理健康教育研究

《中共中央国务院关于深化教育改革全面推进素质教育的决定》中明确指出,要“加强学生的心理健康教育,培养学生坚韧不拔的意志、艰苦奋斗的精神,增强青少年适应社会生活的能

期刊

心理健康教育工作心理学学生心理健康教育

入场理论:架构、运用及意蕴

入场理论是基于名词短语和定式小句的入场发展完善起来的。本文从理论架构、理论运用和理论意蕴三个维度对入场理论进行综述：入场概念、入场元素特征、入场策略、入场平行性与

期刊

入场理论名词短语定式小句入场元素

护理干预对结直肠癌根治术患者术后生活质量及睡眠的影响研究

目的研究了护理干预对结直肠癌根治术患者术后生活质量及睡眠的影响。方法选取我院收治的结直肠癌患者作为研究对象,并随机分成两组,对其实施不同的护理措施。一组实施常规护

期刊

结直肠癌护理干预睡眠质量生活质量

烟雾致大鼠慢性支气管炎系列模型的建立及病理变化半定量评价

目的探讨建立大鼠慢性支气管炎形成过程模型及进行病理变化半定量分析的方法。方法混合烟雾吸入法建立慢性支气管炎形成的系列发展模型;HE常规染色观察不同阶段的病理形态

期刊

烟雾慢性支气管炎动物模型病理评分

管理不只有黑白

1996年,任正非与梁国世(华为第一位驻外代表,《土狼突围》一书的作者)谈到华为公司为什么能成功这一问题时,任正非回答的是"中庸之道"。或许,从这时开始,任正非就已经建立起

期刊

灰度空间第一位任正非华为基本法激励员工集体英雄主义非黑即白均衡数

白介素-10和生长分化因子-15在急性冠状动脉综合征中的研究进展

目前,冠心病（CHD）是威胁人类健康的常见疾病及致死的主要原因之一。世界卫生组织相关数据统计,心血管疾病可能成为全世界死亡率增高的第一大病因。其中急性冠状动脉综合征（ACS）是

期刊

白介素-10生长分化因子15急性冠状动脉综合征

欧盟与俄罗斯相互制裁背景下中国的发展机遇

自乌克兰危机爆发引发了美国及欧盟对俄的制裁。俄罗斯随后出台了反制裁措施。在这种大背景下,中欧、中俄贸易将可预见的得到一个新的发展契机,本文将着重从政治、贸易、金融

期刊

相互制裁能源军事金融中俄中欧

贺研1号有棱丝瓜高产栽培技术

贺研1号有棱丝瓜表现为中熟、优质、丰产、抗寒抗热抗霜霉病及细菌性角斑病,一般每公顷产量为37500kg。文章详细概述了贺研1号有棱丝瓜品种特征特性和从播种到采收的主要栽培

期刊

有棱丝瓜新品种栽培技术

粪便隐血试验在慢性肾脏病患者发生结直肠病变的预测意义

目的:在慢性肾脏病患者中,常常由于疾病本身并发症的原因,以及受到激素、阿司匹林、肝素等药物的影响,胃肠道病变广泛存在,易出现消化道出血。众多的研究表明,在较严重的CKD

会议

自平衡试桩法桩基承载力等效转换新方法

在分析自平衡试桩法桩基荷载传递机制的基础上,提出一种新的自平衡试桩法桩基承载力等效转换方法.该方法首先基于Mindlin公式求出桩恻摩阻力在桩周和桩底土体中引起的附加应

期刊

自平衡试桩法剪切位移法附加应力动态模量

面向异构大数据集成的实体识别技术研究

与本文相关的学术论文