事件可信度识别方法研究

来源 :苏州大学 | 被引量 : 2次 | 上传用户:lenvy11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件可信度表达了文本中事件的真实程度,描述了事件是否是一个事实,或是一种可能性,还是一种不可能的情形。事件可信度信息普遍存在于自然文本中,反映了不同的事件参与者对事件真实程度的不同态度,或者事件在不同上下文环境下的可信程度。事件可信度识别任务是自然语言处理领域中诸多相关任务的基础,例如问答系统、观点检测、情感分析、谣言识别等。本文主要从句子级和篇章级两个层面研究事件的可信度,围绕事件可信度识别任务中的三个子任务开展工作:(1)不确定和否定作用范围识别。该任务负责识别不确定和否定线索词的语义作用范围。本文分别提出了基于卷积神经网络和LSTM神经网络的作用范围识别模型。实验证明,本文模型在Bio Scope语料上取得了较好的性能。(2)句子级事件可信度识别。该任务识别句内相关源对于事件可信度的评价。本文提出了一种基于生成式对抗网络的句子级事件可信度识别模型。实验证明了本文模型优于基准系统。(3)篇章级事件可信度识别。该任务从事件所在篇章的角度出发,识别其篇章级可信度。本文首次构建了基于篇章级事件可信度的语料库,并提出了基于对抗训练神经网络的篇章级事件可信度识别模型,该模型在性能上优于其它基准系统。具体而言,本文研究的主要内容分为以下三个部分:(1)基于结合句法路径的CNN和LSTM神经网络的不确定和否定作用范围识别。已有研究证明,句法特征是不确定和否定作用范围识别的重要信息。然而,已有研究在选择特征时人工参与较多。为此,本文提出了两种神经网络模型用于识别不确定和否定作用范围,并将从线索词到词语的句法路径作为主要的句法特征。其中,基于卷积神经网络的模型将作用范围识别任务看作词语分类任务,并使用CNN从句法路径中抽取句法特征信息;基于LSTM神经网络的模型将作用范围识别任务看作序列标注任务,使用一个LSTM神经网络学习句法路径中的特征信息,并使用另一个LSTM神经网络对句中词语进行序列标注,识别线索词的作用范围。实验表明,本文提出的神经网络模型在Bio Scope语料库上取得优异的性能。(2)基于生成式对抗网络的句子级事件可信度识别。本文首次提出了一种分两步的有监督学习模型。首先,从生语料中抽取计算事件可信度的基本信息,包括事件、源引入谓词、事件相关源、不确定和否定线索词等。然后,本文提出了一种具有辅助分类的生成式对抗网络模型识别事件可信度,并将基本信息到事件的依存句法路径作为句法特征。该模型中的生成器能够生成接近于真实分布的句法路径,以提供更多有用的句法信息。另外,模型中具有两个输出的辅助分类能有效识别不确定和否定可信度值。实验表明本文模型在Fact Bank上优于其它基准系统。(3)篇章级事件可信度语料库的构建。目前,相关语料库的缺乏制约了篇章级事件可信度研究的进展。因此,本文构建了英文和中文的篇章级事件可信度语料库,该语料库是首个标注了篇章级事件可信度的多语种语料库,包括1727篇英文和4649篇中文新闻文档。对语料的统计和实验性能说明,本文构建的语料库可以全面反映新闻文本的语言特点,为篇章级事件可信度的研究提供了足够且有效的语料库支持。(4)基于对抗网络和序列间注意力机制的篇章级事件可信度识别。本文提出了一种基于对抗训练的LSTM神经网络模型,用于识别篇章级事件可信度。该模型使用基于注意力机制的LSTM神经网络模型,从句子和句法路径中学习特征表示,并使用序列间的注意力机制抽取序列集合的特征表示。此外,该模型在词嵌入向量表中加入小幅摄动,采用对抗训练,增加模型的鲁棒性。实验证明,考虑对抗训练和句子的上下文,均能提高模型的性能。目前,事件可信度领域的相关研究仍然处于初始阶段。本文聚焦于事件可信度识别研究,针对句子级和篇章级事件可信度识别任务,在方法和资源上均有所创新。本文研究对事件可信度识别领域相关研究具有重要的参考价值,并有助于自然语言处理领域相关任务的发展。
其他文献
中国正面临着调整经济结构,转变经济发展方式的现状,在这样的大环境中,以文化创意、高科技和知识产权为核心的文化创意产业发展尤为迅速。而通过文化创意帮助农产品变身成创
采用两种方案制备二氧化钛母液进行对比试验,第一种将TiO2粉末直接加入光亮纺丝粗原液中,搅拌均匀,第二种无将TiO粉末加入NaSCN溶液中搅拌打成浆注,再将浆液加入光亮纺丝粗原液中,搅拌均匀,试验
经过多年的努力,中国电影发展势头良好,票房、银幕、影院数量及观影人数持续增长,国产影片质量有所提高,占据国内市场主阵地,中国电影市场影响力不断扩大.文章从近年来中国电
本文记录了福建东山锯齿刺星珊瑚(Cyphastreaserrailia)、标准菊花珊瑚(Faviaspeciosa)和盾形陀螺珊瑚(Turbinariapeltata)等6种造礁石珊瑚。石珊瑚的立体生境中,栖息着埋栖、穴栖、缝栖、附着和游动等5种栖息习性的154种伴生物种。埋栖的连
期刊
《广州民国日报》是民国广州报纸的代表,1929~1936年该报纸刊登了大量的中医药广告,类型主要包括中药房广告、中药品广告和医师广告。通过解读中医药广告这种文化现象,可以窥
随着融媒体的建设和发展,相对于自媒体的传播媒介而言,主流媒体所报道的新闻内容在众多主流信息中需要占据一定的地位,掌握主动权。在中国法治化建设过程中,融媒体环境下提高
本研究主要针对气象类节目的专家型主持人进行。通过梳理相关概念和理论 , 明确了专家型主持人的发展 历程,为气象类节目专家型主持人的培养提出建设性的意见和路径。
随着我国社会经济发展,人们的生活水平不断提升,广大群众逐渐开始重视精神方面的生活,而广播电视 作为社会精神文明建设和文化传播事业的重要载体,具有不可忽视的重要作用。
广州城建职业学院积极探索适合国情、社情、学情的思政课教学模式,摸索出了一条新颖的教学改革路子,即“三教一考”教学模式。该模式集专题教育、综合教育、持续教养、全面考核