基于卷积神经网络的实体关系抽取方法研究

来源 :北京交通大学 | 被引量 : 5次 | 上传用户:tobay1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取是自然语言处理领域的重要基础技术之一,同时也是信息抽取的一个关键子任务,有着重要的研究价值和广泛的应用场景。近年来,深度学习方法在实体关系抽取领域中得到了广泛的应用。不同于基于规则和基于统计的方法,深度学习方法能够借助神经网络自动抽取文本特征,在模型建立的过程中不断地进行特征的学习,减少了人工设计特征的不完备性。实体关系抽取任务主要采用循环神经网络和卷积神经网络模型架构,由于循环神经网络在对句子进行建模时会丢失部分局部特征,而卷积神经网络能较好地将句子的局部信息整合为全局信息,因此,本文选用卷积神经网络作为基础模型。经过调研发现基于卷积神经网络的实体关系抽取方法面临如下挑战:深度学习方法需要大量的标注数据做为支撑,实体关系标注数据的匮乏是目前面临的一大难题。另一方面,神经网络模型中使用注意力机制能够使关系抽取的性能得到进一步的提升,但是现有的注意力机制通常关注词汇级等低层次的语义特征,缺乏对句子全局语义信息的关注。针对以上挑战,本文提出了相应的解决方案。本文主要的创新点和贡献如下:(1)提出了基于高层语义注意力机制的卷积神经网络实体关系抽取模型(PCNN_HSATT)。在卷积神经网络的分段最大池化层后添加了注意力机制层,以关注句子的全局信息。由于不同的卷积核可以抽取不同层次的句子全局信息,使用注意力机制可以合理地为其分配权重,获得更多对关系预测有贡献的特征。(2)在网络的向量表示层中融合了外部语义信息——知网的上位词信息。对于句子中的实体,除了词向量和位置向量特征外,还引入了其在知网中的上位词特征,丰富了向量表示层的语义信息,提高了关系抽取的F1值。(3)针对中文领域实体关系标注数据较为匮乏的问题,本文提出了一种融合同义词词林,并添加句法约束的数据增广方法。该方法将COAE2016训练集从988句扩充到11 328句。本文针对所提出的方法设计了对比实验,实验结果表明本文提出的PCNN_HSATT模型与PCNN等现有模型相比在实体关系抽取任务上更有优势。本文还利用所提出的数据增广方法获得了大量有效的标注数据,并在实验中验证了其有效性。
其他文献
自20世纪80年代输尿管镜应用于临床以来,输尿管结石的治疗发生了根本性的变化。新型小口径输尿管镜的应用,与新型碎石设备的广泛结合,极大地提高了输尿管结石微创治疗的成功
目的 :探究窄谱中波紫外线(NB-UVB)光疗后寻常性银屑病患者外周血中性粒细胞与淋巴细胞比值(NLR)、血清内皮细胞特异性分子及nesfatin-1水平。方法:共选取100例研究对象,其中
习近平总书记指出:建设“一带一路”对民族地区特别是边疆地区是个大利好,要加快边疆开放开发步伐,拓展支撑国家发展的新空间。(“一带一路”)这个倡议符合我国经济发展内生
目的:通过对病证结合和单纯疾病两种子宫内膜异位症(EMT)动物模型血液流变学和单胺类神经递质进行比较研究,探索微观量化指标在模型建立中的意义,为中医药治疗子宫内膜异位症
越来越多的证据表明,城市已经成为国家经济中产业创新和增长的主要动力。然而无论是在学术界还是政策制定方面,在什么是创新型城市以及如何建设创新型城市等问题上却很难达成
目的探讨eya1基因在Goldenhar综合征家系中的作用。方法收集1个Goldenhar综合征家系6例成员(患者4例,疑似病人2例)的血样,抽提基因组DNA,然后对eya1基因编码蛋白质的外显子3~18
为进一步提高列车车载天线系统的电磁兼容性,使用遗传算法对天线的位置坐标进行变换编码,通过选择、交叉和变异的迭代过程寻找使车顶面天线系统耦合度最优的天线位置坐标。将
目的观察和比较不同临床标本微生物检验的阳性率结果。方法选择90份临床标本作参照组,时间为2017年1月-12月期间,另选择90份临床标本作研究组,时间为2018年1月-12月期间,都通
基于对我国现有的能源状况及各种供暖方式优缺点的分析,尤其是通过对便于调节控制和计费收费的集中热水分户供暖型式的详细阐述,提出我国北方城市的供暖方式,应以在燃煤为主的集
针对国内外关于创新型城市研究中,众多学者对创新型城市给出的不同定义,显示出目前对创新型城市的认识仍然没有统一的情况,通过分析国内外创新型城市的代表性定义,并在比较其