论文部分内容阅读
句法分析是衔接自然语言理解中词法分析与语义分析的桥梁,在自然语言理解中具有至关重要的作用。在自然语言分析中,传统的基于规则的方法和近年来兴起的基于统计的方法各有利弊,如何把二者有机的结合起来,以提高分析器的处理能力,是当前计算语言学的重要课题。同时,句法结构歧义现象也成为了制约句法分析的巨大障碍。 针对上述问题,本文对国内外句法分析和结构歧义消解展开了较为全面的调研。提出了一种规则与统计相结合的汉语依存句法分析模型。该模型的主要特点是把句法分析分为不同的阶段,第一个阶段是组块分析;第二个阶段是组块内依存关系分析;第三个阶段是组块间依存关系分析。并针对每个阶段所要解决问题的不同特点运用相应的规则和统计方法进行处理。为了实现上述分析策略,本文在以下几个方面展开了研究: 1、词间长距离依存现象分析。在任何语言中,词语间的长距离依存现象都是普遍存在的。我们通过对汉语单句的句法和语义的分析,发现长距离依存词对,在此基础上制定了用于识别长距离依存关系的依存模板。 2、句法结构歧义消解。提出了以下的句法结构歧义消解策略。 1)针对全体句法结构歧义的一般消解策略。在本文的句法分析中,每个阶段问题的处理都会遇到句法结构歧义问题。在已有规则不能消解的情况下,作为一种通用消解策略,我们提出运用改进的T检验方法来计算词语之间的搭配信息,并以此来实现句法结构歧义的消解。 2)针对特定句法结构歧义的特定消解策略。为了更好的解决句法结构歧义问题,本文针对汉语句法结构歧义中最常的“动+名1+的+名2”歧义结构,进行了深入的研究和探讨,提出了基于知网和基于最大熵的歧义消解方法。综上所述,本文将句法分析分解为几个不同阶段进行研究,针对不同阶段的问题分别使用相应的规则与统计的方法,即减少了规则冲突,又加强了统计分析的针对性,从而有效地提高了句法分析的正确率。句法分析的关键问题是歧义结构的处理,我们针对不同歧义结构,采用了通用消解策略和特定消解策略相结合的方法,并取得了较好的实验结果。对于典型的“动+名1+的+名2”歧义结构,基于知网和基于最大熵的歧义消解方法都达到了80%以上的正确率。