论文部分内容阅读
本文论述了基于概率的上下文无关语法的句法分析的原理及实现过程。本文首先回顾了自然语言的发展历史和应用范围,同时介绍了句法分析在自然语言中的重要的地位和本文的主要工作。然后介绍了句法分析的常用的分析方法,并对本文的基于概率的上下文无关语法的句法分析器所采用线图分析法作了重点介绍,分析了这种方法的原理以及优点。本文的句法分析器是基于概率上下文无关语法的,这种方法是统计分析模型中比较成功的一种模式。在本文的第三章详细介绍了PCFG的排除句子歧义的原理,并用具体实例加以阐述。基于概率的分析,当然最重要的就是概率的提取问题,在本文的第四章给出了提取概率的详细算法及实例,解决了基于概率上下文无关语法的三个重要问题。即采用向内向外算法,在给定一部概率上下文无关语法的前提下,计算句子的概率;采用Viterbi算法,在给定一部概率上下文无关语法以及句子前提下,找出最为可能的分析树。采用向内-向外算法,为语法规则选择概率,使得训练句子的概率最大。在对真实的句子进行句法分析的时候会遇到很多问题。本文第五章针对一些具体问题提出了一些解决方案,取得了一定的成效。主要有以下几个方面。1)根据汉语,既缺乏形态变化,又缺乏作为句法标志的黏着成分的外在特征,本文采用了短语本位的思想。2)针对汉语的具体特点,在本文中设计了预处理系统,系统利用特征词在对句子进行综合分析之前预测句子的句法结构,换句话说,预处理实际上是部分句法分析,它起着导引综合分析的作用,避免了不必要的计算。3)在本文中针对基于统计句法分析中数据稀疏问题,采取了数据平滑技术,使该问题得以缓解。4)在汉语中特定的句法范畴与特定词类之间的共现关系,在本文的句法分析器中,句法分析的歧义消解引入这类共现信息。即本文提到的制约法消歧,也就是利用句法、语义等制约条件排除不能满足制约条件的结构,从而达到消歧目的。在第六章列出了本句法分析器实验结果,并与其它几种统计句法分析模型进行了比较分析。最后,本文分析了本系统的存在的缺陷及一些改进措施。