实体链接中的关键问题研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:wap1012min2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体链接是自然语言处理领域的一项关键任务,准确无歧义的链接结果有利于构建高质量的知识图谱,对于问答系统、语义检索以及信息抽取等自然语言任务也有着基础支撑作用。实体链接任务旨在将文本中的表述与知识库中的实体对齐,主要包含两个组件:知识库和实体链接模型。在知识库方面,规模日益增大的知识库并未提升链接性能,反而带来不相关领域的噪声干扰及不必要的资源消耗和训练时间。在实体链接模型方面,一方面,已有的模型对文本自身信息的挖掘还不够充分,无法与规模更大、信息量更丰富的知识库相适配;另一方面,已有的模型过于依赖复杂度较高的算法,存在着重复计算、占用过多资源等问题。针对上述实体链接中的三个关键问题,本文分别提出了如下的三种解决方案:(1)为了减少知识库中不相关领域的干扰以达到改善知识库的质量的目的,本文提出了一个简易且有效的由粗粒度到细粒度的知识库抽取方法。实验结果表明使用抽取后的知识库,在不影响链接性能的前提下节省了约70%的存储空间和约60%的运行时间,同时能显著提升特定领域的链接准确率。(2)针对现有研究对知识库中的信息和文本自身信息挖掘不充分的问题,本文提出了融合丰富信息的神经实体链接模型,通过使用高速网络桥接文本的关键字信息,借助自注意力机制捕获文本的序列信息,该模型能更好地表征表述的局部和全局信息。实验结果表明该模型能较好地捕获文本潜在的信息,全面地提升链接的性能,在最新的通用知识库上取得了目前最好的性能。(3)针对上述深度学习模型的计算复杂度过高,存在重复计算、过多占用资源等问题,本文提出了一个基于强化学习进行全局优化的实体链接模型。通过强化学习将全局消歧转化为序列决策的问题,并使用奖惩机制配合3种决策顺序探寻出最优全局实体链。实验结果验证了该强化模型的有效性,在降低计算复杂度、规避重复计算的同时进一步提升链接性能。
其他文献
电力变压器是电力系统中重要的电气设备,如何保证其安全性和稳定性,关系到整个电力系统的安全与稳定。差动保护由于原理简单、性能可靠,成为变压器关键主保护之一。变压器空
圆形断面结构在工程结构中有着广泛的应用,例如:桥墩,结构柱,斜拉桥斜拉索等。有研究发现在低雷诺数下,相比于光滑圆柱而言,正弦波纹状圆柱有减阻减振的效果,力学性能优于圆柱。就工程实际应用而言,例如斜拉桥斜拉索的雷诺数通常在105量级,在此雷诺数下,正弦波纹状圆柱的力学性能会如何?因此开展正弦波纹状圆柱的雷诺数效应研究是十分有必要的。设计了特定几何参数的正弦波纹状圆柱,采用风洞试验的方法,在雷诺数为1
传统直线伺服系统多采用“滚轴丝杆+旋转电机”或“齿轮齿条+旋转电机”的驱动方式,传动精度受回程误差、机械变形等因素的制约,限制了伺服系统的控制精度。而直线电机伺服系
由小麦叶锈菌(Puccinia triticina)诱发的小麦叶锈病是影响世界小麦品质及产量的严重病害,具有感染力强、传播范围广泛等特点。在不亲和组合中,叶锈菌侵染小麦叶肉细胞获取营养,吸器母细胞(Haustorial mother cell,HMC)接触的叶肉细胞快速死亡诱发过敏性反应(Hypersensitive reaction,HR),使叶锈菌无法继续从宿主细胞中汲取营养,从而限制病原菌的
美国自出版(Self-publishing)从纸质出版形态发展而来,随着网络技术的迅速发展,2007年开始相继诞生诸多网络自出版平台,自此自出版逐渐开始在美国图书出版业市场繁荣发展,此种新出版模式对整个出版格局产生了强烈冲击。而在自出版市场中,亚马逊KDP平台凭借原本强大的读者群体与电商运营经验,通过不断地收购与整合逐渐建构起完整的产业链与先进经营模式。在KDP上进行自出版不仅流程简单,发布迅速,
随着国家对基础建设需求的不断提升,工程车辆的工作效率和性能亦需随之提高,因此对工程车辆冷却系统提出了更高要求。工程车辆在工作过程中产生大量热是影响其使用的主要因素,而中冷器的换热效率直接影响发动机的工作状态,未降温的增压空气会明显增加发动机油耗和有害气体的排放。因此,对工程车辆中冷器的研究有助于环境保护和提高车辆整车性能。新型枕板式中冷器具有制造工艺简单、质量轻、不易堵塞等优点。本文对新型枕板式中
背景和目的:血管紧张素Ⅱ(angiotensin Ⅱ,Ang Ⅱ)可以激活血管外膜成纤维细胞(adventitial fibroblasts,AFs),并参与血管损伤后的血管重塑和局部炎症反应,但具体机制仍不清楚。
自本世纪以来,随着基因测序技术的快速发展,对个人进行基因测序的成本大幅度下降,从而导致基因测序的数据量飞速增长,使得当前对基因数据进行分析的速度已经无法和基因数据产
从现在到2020年,是全面建成小康社会决胜期,“小康不小康,关键看老乡”,关键是看农村贫困人口能否一个不少的全部脱贫,而实现这个目标关键就要靠精准扶贫。从2014年10月开始,
作为阿尔兹海默症(Alzheimers Disease,AD)的早期阶段,轻度认知障碍(Mild C ognitive Impairment,MCI)的诊断研究日益受到国内外学者的广泛关注。而对脑电信号进行特征提取与分类是诊断MCI的一种重要途径。当前特征提取与深度学习相结合的研究在脑电信号分析领域得到了广泛应用,但是如何提取适合深度学习分类的有效特征以及如何构建高效的深度学习分类器是当前MCI脑