论文部分内容阅读
近年来,随着网络的发展,现代人对信息沟通和处理的需求越来越迫切,这使得自然语言处理以及相关的应用领域得到了迅速的发展。而由于句法分析在自然语言处理研究中的关键地位及其在各种应用上的光明前景,本文对汉语的句法分析进行了深入的探讨和研究,并且由于重排序方法在提高句法分析性能上的有效性,因此本文把对重排序方法的研究作为本文的主要研究内容。具体的工作如下:首先,本文对当前主流的句法分析模型进行了介绍,并且在宾州中文树库CTB5.0上进行了实验,测试比较了不同句法分析模型的性能。根据对实验结果的分析本文探讨了不同构建模型的方法以及不同模型对句法分析的影响,而这些影响主要体现在对信息的融合,对训练语料的要求,以及对最终句法分析的性能和效率上。其次,本文应用了不同的句法分析模型作为初始模型来进行句法分析的重排序实验,其中初始模型分别采用了概率上下文无关文法(PCFG)模型,Stanford-1模型以及Berkeley模型,而对于影响重排序性能的两个重要因素:特征表示和参数训练,本文进行了如下的设置,特征表示方面,本文主要参考了Collins在他的文章中给出的特征集并进行了稍微的改动,而参数训练方面则采用了最大熵方法作为训练方法。另外本文进一步探讨了不同类型特征对实验结果的影响,分析结果表明重排序模型中的特征选择应考虑初始模型的影响。最后,在对传统重排序方法研究的基础上,本文发现现有的重排序方法对于N-best候选树中所蕴含的信息并没有充分利用,因此针对性地进行了改进并通过相应实验进行了验证。具体的说,在传统的重排序方法中,常常将重排序映射为一个分类问题,而指导训练分类参数的代价函数常常设置为使N-best候选句法分析树中的排名第一的句法分析树和其他句法分析树之间的边界距离(Margin)最大。但是本文发现,在实际情况中,句法分析树之间的顺序是根据该句法树与标准树的相似度值来排序的,也就是说,不同的句法分析树之间没有“质”的差异,只有“量”的差异,而在传统的方法中却常常忽视这一信息。针对此问题,本文提出了两种改进模型:基于相对距离的分割模型和基于多类融合的模型。并且利用这两种模型在PCFG模型作为初始模型的基础上进行了实验。实验结果表明,改进模型使得句法分析的性能有了进一步的提高,在用PCFG作为初始模型的基础上,改进模型比传统的重排序技术又提高了0.9个百分点左右。另外,本文实现了一个多种显示模式的句法分析树可视化系统,该系统提供了三种主要的显示模式来对句法分析树进行展示,分别是“短语模式”,“依存模式”,“骨架模式”。除了对句法分析树给出不同结构的显示外,该系统还可以为重排序中的特征选择提供相应的帮助。