论文部分内容阅读
语义分析一直是自然语言处理研究领域的重要目标之一,在目前深层语义分析很难实现的情况下,浅层语义分析的重要性不言而喻。语义角色标注作为浅层语义分析的一种常用表达方式,其任务是找出句子谓词的各个语义参数,并把它们以语义角色的形式标注出来。通过语义角色标注,能够指明某一句子所描述事件的施事者、受事者、发生的时间等语义信息。本文研究了基于依存关系的越南语语义角色标注,第一阶段探讨并解决了语料的质量问题,第二、三阶段分别采用两种方法完成标注工作。本文所实现的研究成果如下:(1)提出规则与树库转化相结合的越南语依存树库错误检测方法。针对现有越南语依存树库错误较多质量不高无法作为语义角色标注的实验语料这一问题,提出一种规则与树库转化相结合的越南语依存树库错误检测方法。该方法充分结合越南语的语言特点和语法特征,利用遍历算法构建规则库,基于Xia的转化算法将依存树转化为短语树,依据其是否能够转化成功以及短语类型对比是否一致,将越南语依存树库中存在的错误检测出来,并对检测出来的错误进行修改校对。实验结果表明,所提方法可以大大提高越南语依存树库的质量,从而有效解决了基于依存关系的越南语语义角色标注的实验语料问题。(2)提出融合多特征解决越南语语义角色标注的有效方法。针对目前基于依存关系的越南语语义角色标注研究较少这一问题,在上一阶段提供的高质量语料这一前提下,提出一种融合多特征解决越南语语义角色标注的有效方法。该方法将依存关系作为标注的基本单元,充分结合越南语的语言特点和语法特征,利用Xue剪枝算法进行预处理,采用贪心策略算法选取丰富有效的特征,基于最大熵方法训练模型,最终分别基于两种语料库进行实验,并设置多组对比实验从不同角度对影响系统性能的因素进行了对比分析。实验结果表明,所提方法可以有效解决基于依存关系的越南语语义角色标注这一问题。(3)提出基于Bi LSTM-CRF混合模型解决越南语语义角色标注的混合方法。针对现有传统机器学习方法存在的局限性问题,鉴于深度学习技术能够自动学习和构建所需要的各种特征,提出一种基于Bi LSTM-CRF混合模型解决越南语语义角色标注的混合方法。该方法将深度学习技术与传统机器学习方法相结合,将神经网络模型与线性模型相结合,将依存关系作为标注的基本单元,利用词向量工具word2vec并基于skip-gram模型将文本转换为词向量序列,通过BiLSTM自动提取文本的上下文语义特征,利用sigmoid激活函数和CRF训练模型,最终实现语义角色标注。实验结果表明,所提方法能更好地自动捕获与依存关系有关的各种语义特征,比其他方法能更好地解决基于依存关系的越南语语义角色标注这一问题。