结合特征优化与负样本采样的事件检测方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:ronalito
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件检测针对自由文本实现事件表述语言的提取和结构化数据的组织(如提取触发词并进行类型标记)。在事件检测过程中,同一个单词(触发词候选)在不同上下文环境中可能触发不同的事件类型,而神经网络方法依赖的词向量只有一种形式,从而无法表征不同的上下文信息。此外,在模型训练过程中,上下文中的虚假特征使得触发词识别会出现偏差。同时,通过观察ACE2005语料(国际权威事件抽取评测数据)发现,该语料的事件类别和正负样例分布欠缺平衡性,导致模型对测试集进行事件检测时,如果表征该事件类型的触发词在训练集中出现次数较少,则该类触发词往往不能被赋予真正的事件类型。为此,本研究通过以下方法解决上述问题:(1)一种基于语言学特征和卷积神经网络模型的事件检测方法本研究提出一种新的基于语言学特征和卷积神经网络模型的事件检测方法。类比词嵌入方法,本研究将特征信息转化为实数向量形式,并作为神经网络的输入,本研究把这种形式称为“特征嵌入”。这种方式一定程度上缓解了语言特征离散化表示在自然语言处理任务中带来的“语义鸿沟”问题。此外,在训练过程中,该方法利用目标函数减弱错误特征对模型的影响,进而削弱错误传递带来的负面作用。实验证明该方法可以达到与当下国际前沿系统进行可比的性能。(2)一种基于生成对抗网络的事件检测方法本研究提出一种基于生成对抗网络的事件检测方法。神经网络具有对语义信息编码并将其映射到高维潜在特征空间的能力。一定程度上,其能提高事件检测的性能。然而,这种高维潜在特征空间很容易被“虚假特征”所污染。针对上述问题,本研究提出了一种自调节的学习方法,该方法包括分类网络、生成对抗网络和记忆抑制调节单元三个模块。其中,生成对抗网络生成上述的“虚假特征”,在此基础上,记忆抑制调节单元用于消除分类网络中的虚假特征,从而提升分类网络的事件检测性能。本研究在ACE2005和TAC-KBP2015语料上进行了详细的实验,结果表明:基于生成对抗网络的方法具有很高的有效性和适应性。(3)一种基于负样本采样的事件检测优化方法此外,本研究提出一种基于负样本采样的事件检测优化方法。基于句子级别的事件检测模型把不含有触发词的句子视为负例样本,在模型训练过程中负例样本对模型起着重要的作用,因此,本研究针对如何选择合适的负例样本这一问题,提出了一种基于强化学习方法的负样本采样方法,以此调优事件检测模型的训练过程。实验结果表明,本研究方法能够有效提升事件检测性能,其在触发词识别和触发词类型分类任务上F1值分别可以达到77.0%和74.8%。通过以上方法,本研究在一定程度上优化了神经网络方法对特征信息的使用以及对训练集样例的合理使用,并提高了事件检测的性能,其中,触发词识别的F1值性能可以达到77.0%,事件类型分类的F1值性能可以达到74.8%。
其他文献
类脂A是脂多糖的重要活性成分,其结构的变化将影响革兰氏阴性菌细胞外膜性质,从而导致细菌耐药性和毒力的变化。磷酸乙醇胺转移酶(EptA)是类脂A的结构修饰酶。磷酸乙醇胺基团
现阶段,基层公务员在我国公务员队伍中的占比较大,是政府职能的具体执行者,他们同基层群众交往最多,履职能力的高低对政府部门的公信力影响最大,因此,如何通过行之有效的绩效
我国作为一个人口众多的国家,农民占总人口的比重最大,所以,“三农”问题一直深受国家的重视。“三农”问题的核心是农民的问题,其实质是农民生存的问题,与农民生存密不可分
随着水体中检出环境激素类物质(EDCs)的情况越来越严重,该类物质对水生生态环境系统的危害影响逐渐受到国内外的高度重视。摇蚊作为水-沉积物系统中典型的模式生物,由于其对
随着科学技术的发展,开展海洋相关领域科学研究的需求不断增长,然而海洋装备的发展是支持相关科学研究的重要举措。目前,海洋生态环境和气候变化的研究主要有两种途径:船舶现
毫米波频段是介于30 GHz到300 GHz之间,其频段高,所以可利用的频带宽,而且携带的信息容量大;波长介于1 mm到10 mm之间,其波长短,所以具有很强的穿透性。由于其宽频带波长短的
我国是全国各族人民共同缔造的统一的多民族国家,多民族国家普遍面临着把诸多存在差异的民族整合到统一的国家中的任务。对于我国少数民族来说,其民族认同不仅包括对对中华民
糖尿病患者的症状主要是胰岛素不能正常在靶细胞中发挥其作用或者出现胰岛素不足的情况,这些引发了单糖、脂肪和蛋白质转化失调,进而水、电解质的代谢紊乱成为全身性疾病。糖
随着深度学习的发展,目前汉语分词在封闭领域上已经达到了很高的性能。然而,当应用场景由封闭领域切换到开放领域时,分词性能会显著下降。本文从特征和数据两方面出发,尝试提
目前,越来越多的人汉字书写水平不断下降,大多数人需要去练习手写体,同时也需要评价者及时的评判以纠正书写中的不当之处。但是受时间和精力的限制,评价者很难做到对所有学习