面向开放领域文本的实体关系抽取技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:awood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向开放领域文本的实体关系抽取是一项具有重要研究价值的自然语言处理任务,它的提出是为了从海量文本中高效准确地抽取有价值的实体关系信息。远程监督实体关系抽取方法利用远程监督假设来自动标注大量句子,在这些数据上构建模型,能够有效地避免有监督模型数据集规模过小、领域依赖性强的问题,因此更适用于开放领域文本。然而,由于标注数据中同时包含两个实体的句子并不一定就表达了这两个实体的关系,导致噪音句子的产生,给远程监督实体关系抽取模型带来了挑战。基于句子层面注意力机制的分段卷积神经网络(Piecewise Convolutional Neural Network With Sentence-level Attention,PCNN+ATT)模型是目前常用的远程监督关系抽取模型,它为句子分配权重以抑制噪音句子的干扰,但仍存在两个不足。其一是采用PCNN模块作为句子编码器,所提取的特征仅包含局部的上下文信息,会导致语义信息的丢失;其二是忽略了词语层面的注意力权重,会导致句子向量对句子语义的表达不够准确。针对这两个不足,本文提出了基于层次化注意力机制的双向GRU(Hierarchical Attention-based Bidirectional GRU,HA-BiGRU)神经网络模型。针对第一个不足,HABiGRU模型采用双向GRU模块取代PCNN,减少句子向量中语义信息的丢失;针对第二个不足,HA-BiGRU模型采用层次化注意力机制,结合词语和句子层面的注意力机制。为了进一步缓解噪音问题,提高HA-BiGRU模型的效果,本文利用句子中实体对的最短依存路径与关系标签的共现概率,提出了两个去噪策略:从数据方面,本文通过设置共现概率阈值,将共现概率低于阈值的关系标签所标注的句子视为噪音数据并过滤,以改善标注数据的质量;从模型方面,本文将最短依存路径对应的关系标签共现概率向量串联到HA-BiGRU模型中双向GRU编码得到的句子向量中,作用在于提高句子与关系标签的相关度计算的准确性,为句子分配更合理的权值,抑制噪音的影响。本文在Freebase+NYT远程监督标注数据上进行了对比实验,以验证所提模型和两个去噪策略的有效性。实验结果表明,本文所提出的HA-BiGRU模型的效果优于PCNN+ATT模型,并且应用两个去噪策略能够有效减少噪音的干扰,进一步提升HABiGRU模型的效果。本文还通过案例分析验证了层次化注意力机制的有效性。
其他文献
指标之间的高度相关性及其重要性差异导致了传统聚类分析方法往往无法获得良好的分类效果。本文在对传统聚类分析方法及其改进方法的局限性展开探讨的基础上,运用数学方法重
农村地区目前面临着老龄化、空巢化、家庭养老功能减弱等问题,因此亟需改善农村地区养老服务发展现状。新型养老模式医养结合可以成为发展的重要方向。目前医养结合作为国家
本文对中信泰富远期合约巨亏案例进行系统分析,探讨我国公司该如何有效地控制衍生金融工具投资风险。
本文选取南京浮桥广场这一实例作为研究对象,通过其设计理念和实际使用情况的前后对比,反思其设计手法中出现的问题,并加以总结。希望能从设计的角度就如何更好地适应市民的活动
提出基于XGBoost算法的随机森林模型(即XGBoost-RF模型),以评估个人信用风险。将德国信用数据集作为数据样本,引入XGBoost算法处理数据样本,依据其得出的重要性得分筛选个人
随着社会的发展及时代的进步,智能手机等智能产品日益繁多,给人们的日常生活带来很多的方便,同时也由于其使用时选项繁多,给我们带来了诸多不便。所以越来越多的人尤其是老年
传播的真正目的,是推动人类终极意义上的交流和对话。然而,当前社会存在各种区隔体系,其结果就是人与人、人与自然、人与机器之间的交流异常艰难。由于视觉表征总是受制于霸
<正>习近平总书记在纪念孔子诞辰2565周年国际学术研讨会暨国际儒学联合会第五届会员大会开幕会上的讲话中指出:"文明因交流而多彩,文明因互鉴而丰富。任何一种文明,不管它产
采用高效液相色谱测定降压肽的血管紧张素转化酶抑制活性,对碱性蛋白酶水解草鱼蛋白制备鱼降压肽进行研究。结果表明,碱性蛋白酶水解草鱼蛋白制备鱼降压肽的较佳工艺条件为:p
财政财务审计通常以依法审计的形式出现,该审计方式指的是审计部门应当按照法律法规以及相关业务的要求开展工作,实施过程中主要通过审查单位财务收支的合法性、真实性等,尽