远程监督下层次关系抽取方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:yx065781080
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取指从非结构化文本中抽取出实体间的关系,是自然语言处理中重要的研究方向。在深度学习时代,监督学习下的关系抽取模型已经取得很高的准确度,但其要求大量带标注的训练语料,然而在现实世界中关系种类繁多,文本数据复杂,提供大量的带标签的训练数据需要耗费巨大的人力。针对以上问题,远程监督的思想被提出,它基于一个假设,如果知识库中存在两个实体表达了某种特定关系,那么语料中所有含有这两个实体的句子都表达了这种关系。远程监督关系抽取通常采用多示例学习的框架,其定义了包,把具有相同实体对的句子分配到同一个包,并标上相同的关系,远程监督下关系抽取的目的是预测出每个包所含的关系。尽管远程监督能自动地为非结构文本打上标签作为关系抽取的训练数据,但是也会带来两个问题,分别是错误标注问题和长尾关系问题。针对远程监督下关系抽取的两个问题,本文创新性地提出利用关系固有的层级信息,建立层次关系抽取模型To HRE(A Top-Down Classification Strategy for Hierarchical Relation Extraction),模型包括两个部分,分别是包的分层表示策略和自上而下的层次关系抽取策略,有效地提高关系抽取准确率。本文主要贡献包括:(1)提出一种包的分层表示策略,利用实体感知的文本嵌入式表示方法,加强文本表示中实体的信息,提高关系抽取准确性,通过分段卷积神经网络,根据实体对的位置对句子分割并进行分段池化,加强文本的特征抽取,并采用分层注意力机制,学习不同关系层级的句子权重,获得到包在不同关系层级上的表示,为层次关系抽取奠定基础;(2)提出了一种自上而下的层次关系抽取策略,通过利用融合局部标签信息的包表示模型和基于标签匹配模型的局部关系抽取技术,来实现分类器参数共享并进行层次关系抽取,此策略能够使不同层次的关系抽取都利用同样的参数,大大减少了关系分类器的数量,克服已有层次分类模型需要对每种关系分别构建不同的关系分器,而造成的模型过于复杂的问题;(3)提出的层次关系抽取策略在远程监督下经典的数据集NYT-10上做了充分的实验,显示在关系抽取精准率指标上,在本文所提出关系抽取方法比目前已知最好的模型提高了4%;在长尾关系准确率指标上,本文比目前已知最好模型提高了27.6%。实验结果表明本文所提出的远程监督下层次关系抽取方法能够有效的解决错误标注和长尾关系问题,提高关系抽取的准确率。
其他文献
随着电子信息技术的飞速发展,电子设备运行速度越来越快。运行速度的增加会导致热量的累积,反过来会对设备的性能造成影响。因此,对器件内部的散热提出了更高的要求。鉴此,本文选用端乙烯基聚二甲基硅氧烷为基体,鳞片石墨和微米银为导热填料,制备了一系列导热垫片,得到了综合性能优异的热界面材料,并探究了不同因素对导热垫片导热性能的影响。主要研究内容包括:(1)以天然鳞片石墨作为导热填料,硅烷偶联剂作为改性剂,端
学位
随着汽车行业的技术变革与革新,智能化的自动驾驶和网联化的驾驶环境成为了汽车与交通行业发展的风向标。学术界和企业技术领域均认为自动驾驶和智能网联的技术融合成果-智能网联自动驾驶汽车(也称智能网联汽车)与智慧交通系统相结合的大趋势,可以较大程度减缓严重困扰人类的道路交通安全问题。其中,由于现有交通事故中由超车引发的事故比率较高,相关科学研究主要关注准备超车或正在进行超车驾驶行为或并道行为的车辆,很少有
学位
驾驶疲劳是造成道路交通事故的主要原因之一,与其他交通事故致因相比,驾驶疲劳更容易导致死亡或重伤,其具有个体表征多样化和疲劳特征隐匿性强的特点,研究驾驶人在途疲劳状态辨识对改善道路交通安全具有重大意义。由于不同驾驶人间存在个体差异性,导致驾驶疲劳共性特征不明确,现有疲劳辨识算法无法满足疲劳辨识的高前瞻性要求,如何正确处理驾驶人疲劳特征的个体差异,已成为目前驾驶疲劳研究中的关键问题。因此,本文立足于该
学位
随着我国社会经济的不断发展,汽车保有量不断增加,随之带来的燃油消耗、道路拥堵和交通安全等问题也日趋严重。商用车作为目前货物运输的主要途径,截至2021年1月我国商用车货运规模占总货运规模的74.4%,同时载货商用车燃油消耗占总燃油消耗量比例超过50%,且仍有上升趋势。因此如何提高商用车的行驶安全性及燃油经济性具有重要意义。随着通信技术、控制方法和传感等技术的不断发展,先进的商用车编队控制方法被证明
学位
随着不可再生的化学燃料能源的不断消耗,寻找绿色、可持续与经济的新能源就成了当代能源化学的重要课题。氢气正是一种优异的洁净能源。而电解水制取氢气(HER)是一种简便的电能存储方法。电解水制氢需要催化剂来促进电解水反应的进行。目前一些稀有金属基催化剂表现出良好的电催化性能,但是由于成本高限制了其广泛使用。于是人们试图开发便宜的过渡金属基电产氢催化剂来替代贵金属基催化剂。铜、铁、钴、镍等过渡金属基催化剂
学位
多取代吡咯和噻唑类化合物具有抗病毒、抗炎、抗肿瘤活性,本身可作为药物使用,亦作为药物合成的中间体,在药物、农药领域有广泛的用途。迄今为止,尽管这两类化合物的合成研究已有很多文献报道,但电化学方法合成这两类化合物的研究工作非常有限,发展绿色有效的电化学合成这两类化合物仍然是非常意义的。鉴于此,本论文着眼于研究电化学合成方法,合成这两类重要化合物。(1)以β-二羰基化合物、醛和胺底物合成多取代吡咯化合
学位
车辆安全驾驶一直是交通领域重要的研究课题,自动驾驶车辆由于减少驾驶员的参与,可以避免大部分由人为因素造成的交通事故,提高驾驶安全和驾驶效率。在驾驶行为研究中,车辆跟驰行为和换道行为是最常见也是最基本的两种驾驶方式,有调查显示由于不合理换道引起的事故占比较高,而智能网联自动驾驶车辆换道行为研究有助于避免该问题的产生。结合国家科技部项目“车车耦合机理与协同安全方法”(项目编号:2018YFB16005
学位
由于人们对气候问题越来越关注,迫切希望能够减少化石燃料的使用,以降低二氧化碳排放量,多年来,人类一直在寻找更清洁、可持续的燃料。在众多可再生能源中,氢能以其高热值、无污染一直备受关注,尤其是现在,氢能将迎来前所未有的发展空间。考虑到氢化酶能够在温和的条件下高效地完成氢气生成和氧化,为此我们选题为:镍、铜、锌、铁、钯配合物的合成与催化氢气生成及氧化性能的研究。本文主要研究内容如下:1、设计并合成了6
学位
符号网络是大数据时代的一种数据表现形式,由节点、节点间正负链接组成。符号网络中的任务在现实生活中有非常广泛的应用,如链接预测、社区发现、节点分类等。但符号网络的节点和链接需要高维向量表示,导致模型计算复杂的问题。表示学习是一种非常有效的学习节点嵌入方法,通过保留网络中拓扑结构、顶点内容和其它辅助信息,将网络顶点嵌入到低维向量空间中。所以用表示学习方法可以将符号网络任务中所需的信息提取出来,用低维向
学位
精准识别癌症患者的分子亚型对癌症的个体化治疗、靶向药物研发和预后分析具有重要意义。大规模多组学数据和基于数据驱动的方法能够促进对癌症分子分型的理解和预测。现有大多数基于机器学习的方法通常依赖于单一组学数据,而未能整合多组学数据为分子分型提供更全面的信息。一些基于神经网络的方法,考虑了分子分型的复杂非线性,但忽略了基因特征筛选和样本之间的关系。图神经网络能够利用样本相似性图中样本之间的信息传递和聚合
学位