面向混合文本的实体链接方法研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:li2008shuai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
快速而有效地从海量互联网数据中获取有价值的信息,并利用这些信息扩充知识图谱已成为当前知识图谱构建过程中的热点问题。然而互联网数据不仅包含着结构松散、内容简单的短文本、而且包含规模庞大、内容复杂的长文本。针对包含长文本和短文本的混合文本,本文提出了一种面向混合文本的实体链接模型,并基于上述模型,设计实现了一个完整的实体链接系统。该模型由预训练、实体指称识别、候选实体生成、候选实体消歧、不可链对象处理五个模块构成。本文主要针对现有的实体链接方法做了以下几个方面的改进:(1)为了增强实体识别的准确率,本文提出了一种结合双向长短期记忆网络-条件随机场(Bi LSTM-CRF)和ERNIE预训练模型的实体识别算法,不但提升了Bi LSTMCRF模型语义表示能力,而且增强了ERNIE模型的特征学习能力。(2)针对当前实体链接算法无法兼顾混合文本中短文本和长文本的消歧效率,本文利用单实体消歧和多实体消歧的互补性,提出了一种融合单实体消歧与多实体消歧的三段式实体消歧方法。在单实体消歧阶段,引入双向变形编码器(BERT)改进了上下文相似度特征并融合多种消歧特征;在多实体消歧阶段,融合单实体消歧多种局部特征,并利用实体指称间的关联关系构建指称实体图,进而改进重启随机游走(RWR)算法,最后通过联合前两段的消歧结果,得到最终的实体消歧结果。(3)为了对三段式实体消歧方法的消歧结果进行过滤,利用不可链对象处理确定不可链对象和可链接的目标实体,进而完成最终的实体链接。本文通过与CRF、Bi LSTM-CRF、BERT+Bi LSTM-CRF算法的实验对比,证明了本文提出的ERNIE+Bi LSTM-CRF算法有更好的效果。候选实体消歧阶段分为单实体消歧的局部相似度特征选取实验、多实体消歧的基于图的算法对比实验以及联合消歧阶段实验三个实验,并在本文构建混合文本数据集上进行验证,表明本方法相较于传统的实体链接算法,在精确率、召回率以及F1上都有一定的提升。最终通过不可链阈值判定实验选定不可链阈值,进一提升了实体链接的效果。
其他文献
行人再识别旨在从不同摄像头检索特定行人是否曾经出现,被广泛认为是一个图像检索的子问题。行人再识别技术面临着行人图像的分辨率变化大、拍摄角度不统一、光照条件差、环境变化大、行人姿态不断变化以及存在遮挡等严峻的挑战,是一个具有挑战性的课题。无监督的行人再识别技术不使用目标域图像的标注信息,其中的域泛化行人再识别能够在源数据集训练并直接在目标数据集进行测试,具有更广泛的实际应用意义。本文针对现有域泛化模
学位
<正>河南是中华文明的主要发祥地,物华天宝,人杰地灵,英才辈出。河南南阳的桐柏是淮河之源,也是革命老区,四大文化(盘古文化、淮源文化、佛道文化、苏区文化)与桐柏秀丽的自然风光相互融合,构成独具特色的桐柏文化。刘世忠,就出生在这块文化和英雄之地。凌寒独开暗香自来
期刊
学位
步入数字经济时代,越来越多的经济行为会以线上、虚拟的方式进行。在个人所得税征管中,涉税信息同样起到举足轻重的作用。一方面,涉税信息一直是税收征管能有效进行的基石,税收信息管理能力是税收征管能力的重要方面,在税收征管现代化的道路上,必然对税务机关的税收信息管理能力提出新的要求;另一方面,涉税信息主要以电子化、数据化的新形式呈现的,在此种新变化下,为保证税务机关能够获取足够的涉税信息,产生了税收信息管
学位
数据挖掘领域中的序列模式挖掘是一个研究热点课题,而且带有周期性间隙约束可以使得挖掘更具有针对性。其中,基于无重叠条件的序列模式挖掘问题与其他同类研究相比更具有研究意义。传统的序列模式挖掘只考虑模式在序列中的出现频率,忽略了外部效用对于模式的影响,这就导致一些出现频率低但是极为重要的模式被忽略而一些出现频率高但是影响程度不高的模式被发现。这不仅降低了挖掘效率,而且使用户的可用性降低。鉴于此,本文研究
学位
19世纪,欧洲引入自由贸易规则之时恰逢工业化大发展,竞争成为市场的主旋律,但完全自由竞争带来的弊端也逐渐显现:完全自由的竞争不仅损害了竞争的公平性,也损害了诚信经营者的利益。于是,所有市场经济国家开始研究如何规范市场竞争衍生出来的不公平情形,以保护经营者的利益,由此,反不正当竞争法孕育而生。虽然各国因历史背景和法律渊源不同而采取了不同的立法技术,但是当时所有的立法都关注诚信经营者的利益,防止他们受
学位
推荐系统能够有效的解决信息过载的问题。由于数据集的稀疏性问题,传统的推荐算法采用线性映射的方式往往限制了算法的表达能力。近年来,深度学习通过引入非线性变换成功推动了图像处理等领域研究的进展,与此同时,在推荐系统领域通过引入深度学习也取得了一定的研究成果。本文针对数据稀疏性导致的推荐算法的精准度不高的问题,提出了两种基于深度自编码器神经网络的个性化推荐模型:1)融合用户以及项目特征的双卷积自编码器神
学位
随着卫星遥感技术的快速发展,遥感图像在城市规划、农田规划、自然灾害处理等领域起到越来越重要的作用。语义分割是遥感图像处理中的一个重要任务,而基于深度学习的遥感图像语义分割任务需要为每个像素点标注,这个过程会耗费大量的人力物力。为了缓解遥感图像标注压力,通常采取数据迁移的方式,即在一个有标注的数据集上训练模型,在未标注的数据集上应用。由于不同遥感数据集之间存在较大的差异,导致了训练测试过程中出现域偏
学位
多视图是计算机视觉研究的主要对象,且内容丰富,常作为传递信息的载体。随着当下生活人工智能化的发展,基于视图形式的三维物体识别技术在很多领域都有了广泛应用,特别是在自动驾驶、医学图像分析等领域。在对物体特征信息的描述问题上,与单一视图相比,多视图可以在物体特征信息上相互补充。物体识别技术中特征提取是计算机处理识别物体的前提,如何建立优化的特征提取算法,得到更为精确、完整的物体特征信息成为计算机物体识
学位
近年来,随着我国社会经济的不断发展,当前建筑市场竞争越来越激烈。要想在目前建筑市场中获得一定的地位,建筑工程企业就必须要加大对建筑工程施工质量的监督力度,为社会广大群众提供高质量的产品。保障建筑工程在施工进度的基础上提升工程的质量,从而推动建筑企业的可持续发展。在新时代的背景下,加强建筑工程质量监督管理的研究,有着重要的实际意义。
会议