论文部分内容阅读
中文句子级别的基本分析技术能为自然语言处理相关应用提供基础的支撑,它主要由词法、句法和语义分析三部分组成。其中词法分析包含分词和词性标注两个级联的任务;句法分析有短语结构和依存结构句法分析两种主流的分析手段;而对于语义分析,本文着重于语义依存分析。这些任务之间是存在着层次关系的,对于一个句子本文首先要进行分词,然后是词性标注,紧接着是短语结构或者依存结构句法分析,最后是语义依存分析。传统的分析方法一般按照层次顺序依次使用各个任务最先进的模型进行处理,这种方法被称为串行分析的方法。它存在两个方面的问题:第一点是错误蔓延问题,即低层的错误会进一步扩散到高层;第二点是每层局部优化,因此低层的任务无法充分使用高层的信息。这两个问题使得联合分析模型的方法得到了广泛的关注,它将多个层级相邻的任务放在一个统一的模型中来处理,从而避免这两个问题,因此能够提高各个任务的分析性能;同时它还可以使得自然语言处理的研究人员能更好的理解各个任务之间的相互关系。本论文对联合分析模型展开了四个方面的研究工作,分别如下所示:首先,针对词法中的分词词性标注,本文对提升其联合分析模型的领域移植能力进行了研究。领域移植问题最有效的解决方法是标注少量规模的目标领域语料,本文在标注语料的具体方式上进行改进,提出将句子标注和词典标注相结合,使得在固定的标注代价下,分词词性标注联合分析模型的领域移植能力进一步增强。实验结果表明这种结合的方法能取得更好的领域移植效果。其次,针对词性标注和依存句法,本文对提高其联合分析模型的效率进行了研究。本文使用一种模型融合和过训练相结合的方法,一方面通过模型融合可以使得联合分析模型精度进一步提高但是其解码速度也进一步的下降,而另一方面通过过训练可以使得一个速度快但是精度低的联合分析模型在前面融合模型的帮助下,准确率大幅度提升,从而得到一个分析速度提升十倍以上而且精度没有任何的损失的联合分析模型。紧接着,针对分词词性标注和句法分析,本文利用大部分中文词语存在着内部结构这一特点,提出字级别的中文句法分析方法,从而非常自然的将词法分析和句法分析联合在一起,得到了中文词法句法大统一的联合分析模型。实验结果表明,这种字级别的分析方法能有效的提升中文词法句法的性能,取得了目前最好的结果。最后,针对句法分析和语义分析,本文依托于依存分析这一手段,使得语义分析和句法分析的联合变得非常方便,从而得到了句法依存和语义依存的联合分析模型。由于中文语义依存分析的方法以前很少被用作于语义分析,因此本文首先从理论和实验两方面表明语义依存分析作为语义分析手段的合理性,然后在此基础上提出句法依存和语义依存的联合分析模型。最后通过实验表明这一联合分析模型能同时提升句法分析和语义分析的性能。