论文部分内容阅读
句法分析是自然语言处理中的关键性问题之一,其主要任务就是自动识别句子的句法结构,即句子包含的句法单位以及这些句法单位相互之间的关系。句法分析问题的解决对于机器翻译、自然语言理解、信息抽取和自动文摘等自然语言处理系统都有着极其重要的意义。在基于统计的句法分析方法中,最关键的两个问题是句法分析算法和歧义消解模型的设计,他们决定着句法分析系统的效率和分析正确率。本文从事的工作则从这些方面入手,实现了一个高效的中文句法分析器,主要研究工作如下:
1.在句法分析算法方面,对传统的句法分析算法从处理策略,算法的时间和空间复杂度等方面进行了综合分析和比较。并在此基础上,详细研究了Chart算法的一个改进算法——“角色反演算法”。针对该算法,本文在两方面提出进一步的改进。首先改进了算法中采用的静态数据表的构造方法,使得该算法能处理的原始输入词性标记从最小的句法单元——词,扩展到更高一级的句法单元——短语和句子,以很小的额外空间消耗为代价,提高了算法的处理能力和效率。然后,引入规则的概率信息对静态表排序,有利于后续分析的搜索和剪枝过程。
2.针对复杂长句句法分析的困难,通过分析标点符号在长句构成上的作用和规律,针对长句提出了一种分层的句法分析方法。该方法把标点符号分为分割标点和普通标点两类,根据分割标点将复杂长句分割为句子单元序列独立进行第一级分析,然后把第一级分析得到的结果作为第二级分析的输入,最终输出结果为完整的句法分析树。另外,通过提取含有所有两类标点符号的文法规则,在一定程度上帮助了句法结构歧义的消解。实验证明该算法大大降低了长句分析的时间复杂度,并且比传统的一遍搜索方法的正确率和召回率均提高了7%。
3.在歧义消解模型方面,在传统的概率上下文无关文法(PCFG)模型的基础上,提出了一个包含内部成分结构信息的PCFG模型,并进一步引入中心词信息,得到包含内部结构成分信息和中心词信息的词汇化PCFG模型。并且,本文提出了根据内部成分结构标记确定中心词的方法,此方法比传统的中心词确定方法具有更高的正确性和直观性。