结合知识库的实体关系抽取

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:niko_robin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取技术作为信息抽取(IE: Information Extraction)中的一个重要组成部分,旨在从语料中挖掘出实体之间的关系。本文指出,自然语言中的实体关系不仅与句子中的语言学特征有关,而且与实体对的背景知识密切相关。基于上述两个因素,本文将关系抽取任务细分为三个子任务:句子中的语言学特征表示,实体对在知识库中的特征表示,以及结合句子和实体对特征的关系抽取。首先,本文提出了一种基于循环神经网络(RNN: RecurrentNeural Network)的句子特征学习方法。由于人类语言的极大变化性和抽象性,基于规则和模板匹配的方法需要耗费大量手工标注和特征工程,难以取得理想的效果。本文利用RNN端到端(End-to-End)地实现了特征的自动学习,并通过设计特殊的网络结构和输入信息,有效提高了关系分类的效果。在SemEval-2010Task8和本文提出的KBP37数据集上,RNN不仅超越了传统的特征工程方法,而且相比卷积神经网络方法在F-1值上提升了 0.7~3.7个百分点。同时,本文利用知识库中不同形式的信息源,提出一种联合训练的方法,将知识库中的实体表示在低维浅层空间中。具体来讲,本文结合了三种信息源:实体在知识库中的拓扑信息、实体在知识库中的文本描述信息、以及语料中的上下文信息。通过联合学习之后的实体向量,能够更加全面地包含实体的语义信息,更加精准地刻画实体间的语义关系。最后,本文创新性地提出了一种利用知识库中的实体信息为关系抽取模型提供先验知识的方法。在关系分类中,我们提取出左右实体在知识图谱中的周围节点以及连通路径上的节点,并通过注意力神经模型对这些提取的节点在低维空间中进行权重计算,最后联合原有的RNN结构,给出用于分类的特征向量。该方法相比原始的RNN模型在F-1值上有了 2至3个百分点的提升,效果较为显著。另外,为了增加模型的普适性,使得关系抽取能够更好地支持其他语言,本文还提出了一种命名实体的标注迁移方法,通过双语平行语料,将英文中的实体映射到其他语言中。综上所述,本文重点提出了一种结合知识库中实体信息的关系抽取方法。该方法不仅可以应用于关系抽取任务,还可以应用于其他涉及命名实体的自然语言处理任务中,例如事件抽取、问答系统等等,应用前景十分广阔。
其他文献
通过几年来对电子定量包装秤的故障处理,总结出了一套行之有效的处理问题的方法,将其常见的故障现象及其解决问题的方法进行了总结。
利用峰值拾取法对顶模平台系统进行了环境激励下的模态参数识别,成功识别出南北向第一阶、东西向第一阶和竖向第一阶固有频率和振型,并验证了结果的可靠性。
<正>2013年3月22日,浙江小百花的《江南好人》在上海东方艺术中心上演。这出新概念越剧留给我们更多的是对越剧未来的思考。《江南好人》改编自布莱希特的名剧《四川好人》。
UWB技术实现了对有限频率资源的充分再利用,但同时也不可避免的成为其它通信系统一种潜在的干扰源,与传统系统的共存性是UWB研究中的一个重要课题。该文首先建立了DS-UWB信号
以义昌大桥为原型,设计制作了混凝土简支T梁模型,并对其进行了不同爆炸高度和炸药药量组合下的爆炸试验研究,分析了简支T梁模型在不同爆炸高度和不同药量下的损伤特性。同时应用ANSYS/LS-DYNA软件仿真分析了简支T梁模型的位移与加速度变化。研究结果表明,在爆炸作用下,混凝土T梁结构的位移响应对爆炸高度更敏感,而且混凝土超声波检测技术对于爆炸荷载作用下模型损伤程度的定量分析有很大的帮助。
《幼儿园教育指导纲要》中明确提出:家庭是幼儿园重要的合作伙伴,应本着尊重、平等、合作的原则,争取家长的理解、支持和主动参与,并积极支持、帮助家长提高教育能力。我园利
将图像进行提升小波变换,分别对高低频采用不同的融合方法,得到融合后图像。并引入信息熵、相关系数和清晰度等性能指标对融合后的图像进行分析。实验结果表明,此提升方法在融合图像质量上优于传统小波变换。
交互式试卷的题型大多包括填空题、判断题、单项选择题和多项选择题。交互式设计的优势主要体现在可以扩大考核面,增加客观性,减少阅卷误差,减轻教师的工作量。交互式试卷主
2000年进入老龄化社会时我国老年人口为12998万人,2015年底达到22200万人,占总人口比重达到16.1%,15年间老年人口增长了近1亿。与此同时,我国空巢老人数量迅速增加,2000至201
对话动机$$党的十九大报告提出:加大全民普法力度,建设社会主义法治文化,树立宪法法律至上、法律面前人人平等的法治理念。$$过去五年,我国在法治宣传教育方面取得了长足进展
报纸