论文部分内容阅读
依存句法分析,是由依存句法而引发出的有关句法分析的一种方法。最近几年中,有关数据驱动的依存句法分析的研究工作迅速增加。驱使有大量句法分析研究工作的原因很大程度上是由于CoNLL评测任务。由于CoNLL的出现,提供了基于很多语言的树库数据集,从而极大的推动了依存句法分析的研究进展。依存关系语法已经被证明是一种很有用的句法分析形式,近年来已经发展出了多个有效的句法分析算法。依存句法结构相对于短语结构的一个主要优势在于,依存结构更简单因而更容易学习和分析。与此同时,依存句法结构又编码了大量可预测的句法信息,这些信息在很多应用中都有重要作用。最近几年,多个自然语言处理领域都从依存句法中获益。在如关系抽取,机器翻译,名词指代等领域都有广泛的应用。在本文中,我们针对图模型依存句法分析算法中存在的问题,我们提出了统一的基于高阶依存句法分析的概率模型并给出并给出相应的算法框架来学习这些涉及依存句法树的统计模型。通过对inside-outside算法的扩展,高阶模型中的Partition functions和marginals可以被有效地计算。同时,我们还给出了更高阶(四阶)的依存句法分析算法。此四阶算法有效地利用了三阶的”grand-sibling”和“tri-sibling”结构的信息,以及四阶子结构”grand-tri-sibling”的信息。此算法的时间和空间复杂度分别是O(n~5)和O(n~4)。我们在中文和英文数据集上实现了这两个算法,并得到了目前最好的结果。