论文部分内容阅读
对语义的获取是自然语言处理领域的一个重要议题,作为一种重要的语义分析技术,语义角色标注的目标在于分析给定句子的论旨结构,亦即识别出和特定动词搭配的论元并对其进行语义分类。语义角色标注在自然语言处理的很多领域——如问答系统、信息提取等——取得了成功的应用,近年来引起了国内外很多学者的关注。
自然语言处理和其它数据处理任务的一个很大的不同在于语言学家对自然语言有着系统深入的研究,语言学家对语言现象敏锐地观察、概括性地描写对我们处理自然语言有着重要的借鉴作用。本文的语义角色标注主要围绕着与句法语义相关的语言学研究成果展开,力图对其中较为抽象的句法语义理论进行建模,并将相应的模型应用于语义角色标注中。
在英语的语义角色标注方面,笔者首先观察到谓词论元结构具有局域性,即一个动词的控制范围多数情况下被限制在句子的一个子域上,这一观察在理论上同样得到了生成语言学的佐证。针对这一突出现象,笔者对生成语言学中原则与参数理论下的数个命题进行建模,并利用最大投射预测来限制论元搜索范围。实验表明这一模型能够较为有效地删减角色标注的范围,提高角色标注的效率和准确性。
语义角色标注问题是一个有复杂输出结构的标注问题,因而结构化模型是角色标注研究的重要方面。和以往关注学习算法和数学模型的研究不同,笔者将研究的侧重点放到了相关的语言学讨论中,通过对论元句法实现过程中的题元层级关系进行建模,利用论元间的题元拟序关系来体现谓词论元结构的结构信息。实验表明,论元间的题元拟序关系可以被准确预测,并且,这种拟序关系有助于角色分类。
在汉语的语义角色标注研究方面,目前的研究还处于起步阶段,笔者将主要精力放在了特征的设计、选取上。在对特征进行深入细致的分析和研究的基础上,笔者实现了一个目前为止最好的基于短语结构句法信息的语义角色标注系统,基于手工标注的句法树,该系统的角色标注F值可达到93.49,性能显著地改善了目前的文献可考的汉语语义角色标注水平--92.0。
虽然基于准确的句法分析树,汉语语义角色标注可以实现较高的性能,但由于目前的汉语句法分析研究还非常不充分,已有的句法分析器性能远远不能满足语义角色标注的要求,到目前为止,基于自动句法分析的角色标注系统一一在准确地分词和词性标注基础上——标注仅能达到71.9的F值。虽然汉语的完全句法分析尚处在起步阶段,汉语的浅层句法分析已经有了一定的研究历史,并取得了长足的进步。针对句法分析的突出问题,笔者从实际工程角度系统地研究了利用浅层句法分析进行语义角色标注的问题。实验表明,在目前的句法分析性能下,基于浅层的句法分析的角色标注系统性能——F值为74.12——优于基于完全句法分析的角色标注系统。
功能标注旨在通过对句法树结点依次分类以自动分析句子的功能信息,相应的算法已经在英语和西班牙语上有所展开。功能标注是一个和语义角色标注类似的任务,在同时借鉴了过往的功能标注的方法和语义角色标注工作的基础上,本文首次对汉语上的功能标注问题展开了初步研究。实验表明,通过标注的方法,汉语的功能标注也可以达到较高的性能。本文亦比较了功能标注和语义角色标注的异同。