基于知识扩展与信息融合的事件检测方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户：boge66

【摘要】

：

事件抽取旨在挖掘文本描述的具体事件信息,是信息抽取领域的一个重要研究任务。自动内容抽取(Automatic Content Extraction,简称:ACE)对事件抽取进行详细定义,分为触发词检

【作者】

：

张婧丽

【出处】

：

苏州大学

【发表日期】

：

2020年01期

【关键词】

：

事件检测知识扩展信息融合框架语义交互学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

事件抽取旨在挖掘文本描述的具体事件信息,是信息抽取领域的一个重要研究任务。自动内容抽取(Automatic Content Extraction,简称:ACE)对事件抽取进行详细定义,分为触发词检测、事件类型分类、论元检测与事件角色分类。本课题聚焦于前两个子任务,统称为“事件检测”。作为事件检测任务的权威数据集,ACE05语料为具体事件标注了明确的触发词和对应的事件类型。目前,触发词检测与事件类型分类这两个子任务的性能均已达70%以上,但由于ACE05语料规模较小导致的数据稀疏以及数据样例分布不平衡问题,造成事件检测任务性能难以有较大提升,此外,触发词一词多义造成的歧义问题也较大限制了准确率的提升。针对上述提出的事件检测任务中存在的数据稀疏、样例分布不平衡以及触发词歧义问题,本文提出一种基于知识扩展与信息融合的事件检测方法,研究内容具体包含以下三个方面:(1)基于框架语义扩展训练集的有监督事件检测方法ACE05语料数据稀疏以及样例分布不平衡,导致事件检测模型训练不充分,且识别事件类型时,会偏向于样例较多的事件,而无法正确判断样例少的事件类型。为此,本文提出通过对ACE05语料进行扩充来缓解上述问题。事件与框架语义定义的相似性,及框架语义知识库FrameNet含有的丰富已标注样例,为语料扩充提供了可能。本文通过触发训与词法单元定义的相似性获取候选扩充数据,再利用事件类型与框架类型的相似度对候选扩充数据进行筛选,最终获得合适的扩充样例。通过利用不同事件检测模型对扩充后的数据进行实验,证明该方法可获得较好的扩充语料,从而改善事件检测性能。(2)基于实体关系改进事件检测的交互学习方法触发词在不同上下文语境中表达不同含义,触发不同事件类型,在事件类型识别子任务中,这种具有歧义的触发词会误导模型,导致事件类型识别任务性能较低。而句子中的实体关系往往能对触发词的语义进行约束,起到一定程度消歧作用,从而提高事件类型识别的准确率。为此,本文将实体关系作为特征,并设计基于注意力机制的事件检测模型,合理融合实体关系信息以及捕获上下文关键信息。此外,本文设计事件与关系联合抽取的交互学习模型,利用两个通道同时完成事件检测与关系抽取任务,双方分别利用对方的输出作为自己模型的输入特征,通过迭代交互学习,逐步改进自身模型的检测能力。通过实验验证,该方法在触发词检测与事件类型识别上的F1值分别达到75.3%与72.7%,对关系抽取的性能也有较大改善。(3)基于注意力机制指导异构图卷积网络的事件检测方法为充分融合文本的句法特征与语义特征,本文提出采用基于注意力机制指导异构图卷积网络的事件检测方法。本文采用句子的实体关系与依存信息构建异构图,并设计注意力机制对异构图的不同路径进行权重分配,以及对上下文不同词进行权重分配,通过多层卷积操作实现捕获文本句法特征与语义特征,忽略冗余信息的目的。该方法在融合句子中的关系信息与依存信息的同时,还加强了上下文与触发词的信息交互。实验证明该方法可以有效提升事件检测任务的性能。本文从知识扩展与信息融合的角度出发,基于不同的外部信息,采用合适的神经网络模型缓解事件检测数据稀疏、样例不平衡与触发词具有歧义问题,改善事件检测性能,其中,触发词检测的F1值达到76.8%,事件类型识别的F1值达到75.2%。

其他文献

ANKRD22在结直肠癌细胞中表达意义的研究

目的:ANKRD22属于锚蛋白(ANK)重复序列家族,具有4个重复的锚蛋白基序,在肺癌、乳腺癌、胰腺癌等多种肿瘤中表达增高,但其功能、分子机制以及与肿瘤发生发展的关系有待进一步深入研究。我们前期研究发现ANKRD22在结直肠癌和结直肠癌干细胞中表达增加,提示ANKRD22可能参与了结直肠癌进展和结直肠癌干细胞特性的调控。本研究通过基因富集分析、制备特异性抗ANKRD22单克隆抗体和免疫组化染色等方

学位

结直肠癌ANKRD22原核细胞重组表达单克隆抗体免疫组织化学

德语浪漫主义和现实主义文学中的怪胎形象研究

怪胎形象是德语文学中一个有趣的话题和现象。这类人因为社会、家庭或者自身性格的原因,以另类的举止、行为和思想与社会环境格格不入。本文选取德语文学中的怪胎形象这一话

学位

怪胎形象浪漫主义现实主义潘克哈茨安泽姆斯

热休克蛋白70检测在急性心肌梗死诊断及治疗中的意义

目的:探讨热休克蛋白70(heat shock protein 70 HSP70)检测在急性心肌梗死(AMI)诊断及治疗中的意义。方法:本研究选择内蒙古医科大学附属医院心血管内科2017年12月至2018年12月住院的急性心肌梗死患者共160例(男112、女48例)为实验组、同期正常体检者共40例(男28、女12例)作为对照;又将实验组分为急性期和恢复期。采用酶联免疫分析法(双抗体夹心法)检测血清

学位

热休克蛋白质心肌梗死早期诊断

基于统计分析的T形件理论模型评估及修正

自美国北岭地震和日本阪神地震爆发以来,钢框架结构中节点的转动变形能力逐步得到重视,而半刚性节点因其能兼顾承载能力和变形能力也逐步受到设计人员的青睐。在半刚性节点的众多研究方法中,组件法因其物理含义明确、适用性强、计算效率高等优点而被欧洲钢结构规范Eurocode 3所采用并推广。其中,受拉区的等效T形件为整个节点贡献了最为显著的转动变形能力,是半刚性梁-柱节点的核心组件,因而具有显著的研究意义。然

学位

组件法分析模型半刚性节点T形件单向拉伸

深度强化学习经验回放机制的改进方法研究

针对带有优先经验回放机制的深度强化学习中存在的学习效果容易受到时序误差离群值的不利影响、学习过程忽略立即回报和时间差分误差小的经验、算法难以收敛等问题提出了优先

学位

强化学习深度强化学习深度确定性策略梯度深度Q网络经验回放机制

城市环境下基于混合模型的车道线检测方法研究

当前交通事故频发,智能驾驶技术成为解决这一问题的有效手段之一,车道线检测是智能驾驶技术的基础而重要的组成部分,对车辆的路径规划及行为决策中发挥了重要的作用。通过对

学位

车道线检测阈值分割特征提取混合模型车道线跟踪

单步和多步的空气PM2.5细颗粒物浓度预测研究

近年来,随着世界各国经济快速发展、社会生产力的不断提升、社会物质生活不断丰富,经济与生态环境的不协调发展也日益突显出来。空气污染的问题日益突出,雾霾天气在全球多个

学位

PM2.5浓度预测时间序列预测Seq2SeqCNNTCN

Er:YAG激光对含管间峡区根管的杀菌和清理作用

目的1.研究Er:YAG激光对含管间峡区根管的杀菌作用,并挑选出杀菌效果最好的Er:YAG激光功率;2.研究Er:YAG激光配合NaClO冲洗对含有管间峡区根管的清理作用。方法1.经锥形束CT

学位

Er:YAG激光管间峡区粪肠球菌大肠杆菌有机碎屑NaClO

使用贝叶斯AFT模型分析空间数据

近年来,随着大型癌症登记数据的易获得性和研究的重要性,癌症生存模型中地理和风险效应的灵活组合正变得越来越受欢迎.大多数空间生存模型会从不同亚群中随机获得生存曲线.然而,在流行病学的研究中,两个亚群的生存曲线通常会相交,因此在不做修改的情况下标准的生存模型是不能使用的.通常的解决办法是在成比例风险模型或完全非参数模型中加入时变回归效应,然而上述两种模型中任何一种都会破坏拟合模型的易解释性.为了解决这

学位

删失数据异方差生存分析线性相关无尾过程空间数据分层AFT模型

相变材料在北方猪舍猪床中应用的研究

近些年来,相变材料的理论研究以及实际应用大多数集中在有机相变材料方面,对无机相变材料的研究少有涉猎。无机相变材料不仅具有导热率高,熔化范围短等优点,而且价格低廉。为同时满足北方猪舍猪只腹感温度的需求,以及国家所提倡的节能环保的方针。因此将无机相变材料应用到北方猪舍猪床结构设计中具有重大的意义。本文通过对国内外无机相变材料相关文献阅读的基础上,结合现在对无机相变材料实际应用的研究现状,依据猪的生物学

学位

无机相变材料相变温度六水氯化钙节能环保

基于知识扩展与信息融合的事件检测方法研究

与本文相关的学术论文