基于多属性注意力机制的实体解析方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:ibyxpr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据环境下,海量的数据资源产生于多个数据平台,多源数据融合技术将来自多个数据源的实体信息进行整合,为数据挖掘、机器学习等数据分析任务提供高质量的分析数据集。这些数据集中可能包含大量的重复实体,不但造成资源浪费、还会影响数据分析的结果。实体解析技术是提高数据质量的关键技术,它能够解决数据重复性问题。现实世界中,同一实体可能来自多个不同的数据平台,不同的数据平台对同一实体的描述可能不一致,如数据格式、表达方式等。实体解析的任务就是从大量的重复实体中找出哪些是重复实体,并进行数据清洗,提高数据的质量。目前,实体解析研究主要集中在重复记录检测方面。现有的实体解析方法大多是基于特征匹配的,即人工的提取实体对之间的相似性特征,并设计合适的匹配函数对实体对是否匹配进行判断。一方面,现有的相似性特征都是利用字符或者文本的字面相似性,忽略了语义信息;另一方面,在进行实体匹配中忽略关键属性的作用,即在实体匹配任务中不同属性之间的差异性贡献。这些问题影响实体解析的质量和效率。针对以上的问题,本文提出基于多属性注意力机制的实体解析方法,主要研究内容如下:(1)提出多属性注意力机制的实体匹配模型。为了提取实体对之间的语义相似性特征,本文利用BERT模型做表格数据的预训练,利用表格数据在BERT预训练模型上微调的方式,获得每个字符的高维语义向量。同时,为了突出各个属性对于实体匹配的差异性贡献,本文将表格中的每个元组拆分成单词序列,利用双层LSTM对整个元组进行深度学习建模,同时以属性为界限分割,在每个属性之上添加注意力机制,突出各个属性的差异性贡献。(2)提出基于属性列的加权哈希分块方法。为了提高实体解析的效率,本文在局部敏感哈希方法的基础之上,提出了基于属性列的加权哈希分块方法。本文利用属性列与元组之间的语义关系,计算得到每个属性对于元组语义表达的权重信息,在对属性列进行局部敏感哈希编码之后,利用各属性的语义表达和权重信息对整个元组进行加权哈希编码。本文提出的方法在多个公开数据集上进行实验。实验表明,本文提出的实体解析方案可以有效的提高实体解析的质量和效率,且更适用于大数据量的实体解析任务。
其他文献
【摘要】语文是课堂教学的主要组成部分,是文化学习的必修课,而要想学好语文则首先要掌握好它的基础汉语拼音,这无论是对学生现在的课文理解或者是以后的语言交流都有着重大的作用,因此需要教师改变教学方式,激发学生兴趣,本文主要归纳汉语拼音学习的探究方法和策略,使学生爱上汉语拼音。  【关键词】语文课改 素质教育 拼音魅力  【中图分类号】G623.2 【文献标识码】A 【文章编号】2095-3089(20
随着现代社会的发展,对微分方程性质的研究逐步成为数学领域的研究热点之一,进行深入的研究是十分必要的.近年来,越来越多的学者开始致力于这方面的研究,同时也产生了很多有
GPS测绘技术是一种全新的技术手段,应用较为广泛,操作简便,精确性较高,应用在工程测绘中对工程质量有一定保障。文章简述GPS技术工作原理,特点特征以及在工程测绘中的具体应用。
美国的大学生贷款制度在联邦政府的支持下,经历了半个多世纪的发展,从无到有,日益丰富多样,逐步走向完善,形成了一种多样化的大学生资助体系.这项制度在其追求公平、追求效率
爱因斯坦所说的:“提出一个问题往往比解决一个问题更为重要,因为解决问题也许仅是数学上的或实验上的技能而已,而提出新的问题、新的可能性,从新的角度去看旧的问题,却需要
【摘要】随着教育的不断改革与发展,中职教育也在不断进步,但是目前在中职学前教育专业的教学中还存在一定的问题。最普遍的问题就是中职学前教育专业存在重理论、轻实践问题,导致中职学前教育专业学生语言教育活动设计能力与组织能力较薄弱,不能适应幼儿教育的实际需要。本文对中职学前教育专业学生语言教育活动的设计与组织能力培养进行了分析,旨在通过有效方式培养和提升学生语言教育活动的设计与组织能力,满足幼儿教育需要
人类社会的发展与演变,不仅是从落后走向文明的灿烂史,同时也是一部不断与贫困作斗争的抗争史。据世界银行的最新统计数据显示,2016年全世界仍有超过8亿人口生活在贫困之中,
目的探讨低张松弛药物阿托品在大剂量静脉肾盂造影(intravenous pyelogrophy,IVP)中输尿管阴性小结石的表现规律,提高其诊断价值。方法100例中.按先后顺序随机分为对照组48例和观
本文对印度脚骨脆Casearia kurzii进行了系统的化学成分研究,对所得化合物进行了抗肿瘤和抗氧化等活性测试,发现印度脚骨脆中的部分克罗烷型二萜化合物具有显著的肿瘤细胞增
生物有机体内的多胺是一类带有正电荷的多聚小分子化合物,常见多胺主要有精胺(Spm)、亚精胺(Spd)和它们的合成前体物质腐胺(Put)。多胺不仅与植物的生长发育、形态发生和逆境