论文部分内容阅读
汁算机自然语言处理需要从线性的句子中获取词语之间的语义关系,树形的句法结构可以推导出句子成分之间主要的语义关系,在自然语言处理中起着重要作用,但随着近年来语料库建设规模的不断扩大,研究者发现用投影树无法完整地描写句法结构,并且还发现有相当数量的非投影树结构和图结构。同时由于汉语自身的特点,长期以来,汉语句法分析精度较低,现有的句法分析技术不适合处理汉语中的一些特殊句式(连动句、兼语句、动词拷贝、长句等),亟需寻找新的技术手段解决非这一难题。一些研究者提出了AMR这种基于图的句子语义表示方法,用来分析英语。本文则尝试借鉴这一方法来探究基于依存语法对汉语进行句法语义一体化标注(简称依存图标注),讲而构建汉语依存图库。本文的主要内容如下:第一步,梳理并分析了句法理论和句法结构表示方法的发展过程,在这个过程中发现在句法分析和论元分析的过程中经常出现了超出树结构的现象,这是引进图结构的一个重要原因,然后,进一步统计分析CoNLL2009评测的中文数据,结果表明了根据树结构难以推导出所有的语义结构,这就需要探索汉语句子的基于图的句法语义一体化标注新方案;第二步,基于以上的理论准备,通过实际标注和反复的验证修改,逐步构建出基于依存图标注的标记集体系和具体的标注规范,这也是本研究的创新之处:第三步是实际操作部分,使用第二步确定的标记集和标注规范对已有的CoNLL2009评测的中文数据中的一部分数据进行依存图标注,一共标注了1230句,并记录了标注过程中遇到的一些问题;第四步则是对第三步的标注结果进行统计和分析,统计发现在标注好的1230句的语料中形成图结构的句子有795句,占到语料的64.6%。这部分就主要分析了标注中形成图结构的一些特殊的语言现象,例如,兼语句、连动句、二价名词等,对这些特殊殊子的朴理正是依存图相对干依存树的优势所在,也是构建依存图库的关键所在。本文的创新之处在于,首先是提出用图结构来表示汉语句法语义分析结果;其次是提出一套新的汉语句法语义一体化标注的标记集合标注规范,另外还将依存语法和框架语义学结合起来对汉语进行分析。本文通过逐步的研究、分析发现,汉语中存在一定数量的需要用图结构表示才能完全揭示其句法语义关系的句子,这类句子往往就是影响汉语句法分析精度的夫键;而标注的实际操作过程和统计分析的结果也证明了,图结构相对于树结构在揭示句子句法语义关系方面有明显的优势。