论文部分内容阅读
零形式(Null Instantiation,NI)是指句子中隐式的语义成分,这些语义成分的正确理解将会影响篇章语义的完整性。对于机器来说,识别与实现隐式语义成分的内容填充是一个较难的任务,需要借助相应的语境,准确地理解语篇,才能有效解决该问题。汉语框架网(Chinese FrameNet,CFN)是从框架语义的角度去描述句子的语境,包含刻画句子特定语境的语义信息。本文基于汉语框架网对零形式进行识别与填充,并将其应用于框架关系判别任务。本文主要工作如下:(1)零形式识别研究。本文根据缺失的语义论元在语义理解上的不同,对零形式进行识别,分别基于传统机器学习与深度学习进行研究。在基于深度学习方法中,首先输入层包含词嵌入和框架表示,其次使用BiLSTM获取上下文信息,最后通过全连接层预测零形式类别,其中探索了基于WASBIE、Word2vec算法及基于框架关系的三种框架表示方法;在基于传统机器学习方法中,构建最优特征集,分别在决策树和随机森林算法上进行实验,得到零形式类别。结果显示,本文构建的零形式模型比baseline结果提高了2%-9%。(2)有定零形式填充研究。本文针对识别出的有定零形式,为其在语篇上下文寻找填充内容。首先提出改进的SMOTE(Synthetic Minority Oversampling Technique)算法扩展数据,为零形式填充提供平衡的数据集。其次在构建分类模型过程中融入语义特征,并借助框架元素间的映射关系提升零形式填充效果。结果显示,融入数据的平衡化处理及语义信息比baseline结果提高了12%。(3)零形式识别与填充在框架关系判别中的应用研究。框架关系判别任务是框架语义分析任务的难点,本文将零形式识别与填充应用于该任务,初步探索了零形式对该任务的影响。首先定义框架关系判别任务,其次对于句子中涉及到的零形式,采用前述方法将其在上下文中的填充内容找出,最后选取相关特征构建分类模型,判别框架间是否具有联系。结果显示,零形式的加入使得框架关系判别任务的F1值提高了1.53%,表明零形式对框架关系判别具有积极的作用。