论文部分内容阅读
句法分析是自然语言处理领域的关键技术之一,在自然语言处理中具有十分重要的地位,它在机器翻译、信息检索、语音识别等研究中都有重要应用。在机器翻译的一些应用中,只需要句法边界信息而不需要短语标记信息。主流的句法分析方法都是既产生句法边界又产生短语标记,并且在分析过程中需要利用短语标记信息。本文的目标是得到句法边界信息,并不需要短语标记信息,因此本文主要研究能否不利用短语标记信息而直接利用词和词性信息得到句法边界的问题。仅仅利用词和词性的边界分析相当于基于无短语标记树库的句法分析。句法树中的短语可以分为一元短语和非一元短语。由于一元短语在树库中的比例比较小,并且将一元短语边界分析和非一元短语边界分析分开,有助于减少两个阶段的歧义性,因此本文首先进行非一元短语边界分析,然后在非一元短语边界分析结果的基础上进行一元短语边界分析。本文提出了两种可行的非一元短语边界分析方法,一种是基于层次分析的边界分析方法,另一种是基于移进归约的边界分析方法。基于层次的边界分析方法将边界分析问题转化为层次组块分析问题,自底向上按层进行分析,该种方法在英语标准测试集上的F-测度接近85%。基于移进归约的边界分析方法分为两个阶段,首先进行基本短语边界分析,然后进行嵌套短语边界分析,基本短语边界分析采用组块分析的方法,嵌套短语边界分析采用移进归约的方法,该方法在英语标准测试集上的F-测度接近88%。这两种方法在分析过程中都没有利用短语标记信息,分析结果也都没有产生短语标记。本文最后在基于移进归约的边界分析方法基础上进行了一元短语边界预测,将一元短语边界预测问题转化为预测由非一元短语边界预测结果形成的句法树中每个节点需要派生的一元规则个数的问题,并提出了一个层次分析模型来进行个数预测,实验结果表明该方法能有效的预测一元短语边界。通过基于移进归约的非一元短语边界分析和一元短语边界分析两个过程,本文得到了一个完整的边界分析器,其边界分析性能已经与斯坦福句法分析器(Stanford Parser)相当。本文的工作证明了不利用短语标记信息而仅仅利用词和词性信息直接进行句法边界分析是可行的。