【摘 要】
:
实体关系抽取是自然语言处理中一个重要的任务,命名实体识别是从自然语言文本中识别出具有特定意义的实体词,关系抽取是在实体识别的基础上从非结构化文本中抽取实体之间所存在的语义关系。实体关系抽取对语义理解、智能问答、机器翻译、本体及知识图谱的构建提供重要的支撑作用。实体关系抽取主要分为串联抽取方法和联合抽取方法:串联抽取方法,忽略子任务间依赖关系,易造成错误积累,并产生大量的冗余实体。联合抽取方法中参数
论文部分内容阅读
实体关系抽取是自然语言处理中一个重要的任务,命名实体识别是从自然语言文本中识别出具有特定意义的实体词,关系抽取是在实体识别的基础上从非结构化文本中抽取实体之间所存在的语义关系。实体关系抽取对语义理解、智能问答、机器翻译、本体及知识图谱的构建提供重要的支撑作用。实体关系抽取主要分为串联抽取方法和联合抽取方法:串联抽取方法,忽略子任务间依赖关系,易造成错误积累,并产生大量的冗余实体。联合抽取方法中参数共享方法未解决冗余实体问题;已有的序列标注方法未能考虑重要实体元素对关系抽取的影响。针对以上问题,本文提出实体感知注意力机制,在关系抽取时为不同实体词分配不同的权重,考虑重要实体元素对关系抽取的影响。由于远程监督方法构建的数据集存在大量噪声数据,对实体关系抽取结果产生负面影响,针对噪声数据问题,本文使用强化学习模型,删除训练数据集中的噪声数据,在无噪声数据集上进行训练提高实体关系抽取能力。本文对实体关系联合抽取方法进行研究,主要工作包括以下几个方面:(1)针对串联抽取方法忽略实体关系间联系、易产生冗余实体、造成错误累积问题,本文采用序列标注的实体关系联合抽取模型,将实体关系三元组抽取任务建模成序列标注和标签选择问题,减少了大量实体和关系两两匹配过程产生的冗余实体,本文提出了实体感知注意力模型,该模型采用端到端方法进行实体关系联合抽取,在嵌入层融合字向量和词向量信息,无需词性标注、依存句法分析等额外的特征标注。并且通过实体感知注意力机制,为不同实体分配不同的权重,考虑实体重要度信息对关系抽取的影响;(2)针对远程监督实体关系抽取数据集存在大量噪声数据问题,本文提出强化学习实体关系抽取模型,该模型由句子选择器模块和实体关系联合抽取模块组成。句子选择器模块将训练数据集分为无噪声数据集和噪声数据集两部分,并使用实体关系抽取模型在无噪声数据集上训练,提升实体关系三元组抽取性能;实体关系抽取模型通过抽取结果计算相应奖励值来动态更新策略网络参数,提升强化学习句子选择器模块筛除噪声数据的能力,从而进一步提升实体关系抽取模块三元组抽取性能。本文模型在NYT关系抽取数据集上进行实验,实验结果表明本文提出的实体感知注意力模型和强化学习模型能有效提升实体关系抽取性能。
其他文献
随着近年来机车牵引重量与运行速度的不断提升,工程上对机车运行的平稳性和安全性提出了更高的要求。机车传动齿轮由于长期受到复杂轮轨激励的影响,极易在运行早期便发生故障,但在复杂的轮轨噪声影响下,由故障引起的齿轮振动响应通常十分微弱,对信号处理算法的性能要求较高,给故障诊断工作带来了极大的困难。基于此问题,考虑牵引电机-齿轮传动系统的相互作用,本文建立了机车牵引电机-齿轮箱机电耦合动力学模型。并考虑了轨
短电弧铣削加工技术能够对高强度、高硬度、高耐磨性等导电金属材料进行高效加工,目前应用于航空航天、石油化工、矿山机械等领域。现阶段,对于该技术的各项研究仍处于不断探索的过程中。短电弧铣削脉冲电源作为该加工系统中的核心装备,其自身电路特性及其在加工间隙的放电特性都将直接影响到工件加工效果。因此,本课题针对短电弧铣削加工间隙进行等效化物理模型描述,有助于深刻理解短电弧铣削加工机理;并以该等效模型为依据对
狂犬病是由狂犬病病毒(Rabies virus,RABV)感染哺乳动物中枢神经系统(Central nervous system,CNS)的传染性疾病。狂犬病是人畜共患病,病死率极高,一旦出现临床症状,死亡率高
光催化分解水析氢反应(hydrogen evolution reaction,HER)是一种极其重要的制氢手段。本文通过基于密度泛函理论(DFT)+U的第一性原理方法,分别系统地研究了单原子Co和Cu在TiO2(101
脂肪酶是一种重要的工业用酶,在食品生产、精细化工加工、生物柴油生产等领域中大量使用。Hyung-Kwoun Kim[1]等人,在油污废液中发现了一种变形杆菌来源的脂肪酶K80。本研究
采用等离子喷焊设备在Q235钢表面制备不同含量AlN、BN的Fe基合金喷焊层。通过光学显微镜、扫描电镜(SEM)和X射线衍射仪(XRD)研究喷焊层的组织和相结构。利用显微硬度计、磨损试验机和盐雾箱对喷焊层的硬度、摩擦磨损性能及耐蚀性能进行测试,并对其机理进行研究。研究结果表明:Fe基合金喷焊层的主要物相由α-Fe,γ-Fe和(Cr,Fe)_7C_3组成。随扫描速度的增大,喷焊层金相组织细化,显微硬
脂肪族聚酯具有优异的生物相容性和可生物降解性能,是一类非常重要的生物材料。但高度疏水、缺乏功能性和生物活性的不足限制了其在生物医药领域的应用。因此对脂肪族聚酯进
基于声表面波(Surface Acoustic Wave,SAW)技术的射频识别(Radio Frequency Identificaton,RFID)标签具有纯无源、读取距离远、环境耐受能力强、本身能实现传感量测量等优点
计算机辅助艺术设计例如计算机绘画、计算机自动上色等是科研人员长期进行探索的问题,因为与人类多样化的表达方式相关,而人类感受与复杂多变,使其成为一个挑战性强而又持续
立体传质塔板(Combined trapezoid spray tray,简称CTST)是一种具有特殊梯形立体结构的喷射型塔板,具有处理能力大、塔板压降低、传质效率高、操作弹性大、抗堵能力强、消泡