论文部分内容阅读
依存句法分析是自然语言自动语法分析的一种方法,其主要作用就是分析一个完整句子中各个成分之间的依存关系,这种句法分析方法受到依存语法语言学的启发。该方法在自然语言处理中处于底层研究和实践应用的中间位置,因此,提高依存句法的准确率对自然语言处理有很大促进作用。传统的句法分析主要是通过语言学家归纳各语言的特点,总结出一系列的规则对句子进行分析,这种方法对语言学专家要求较高,而且每种语言要归纳总结各自的语法规则,不能为所有的语言建立统一的标准。近十几年来,随着语料库的完善和机器性能的提高,数据驱动的方法越来越受到人们的关注,其中比较经典的有基于转换和基于图的依存句法分析。从前人研究的结果来看,基于转换的依存句法正确率不是很高,实现方法也比较复杂。本文采用了基于图的依存句法分析作为研究重点。首先从理论层面研究了基于图的依存句法分析过程,重点研究了三个方面:(1)句子依存结构的表示,本文使用了三种方法表示句子的依存结构,它们各有优缺点,从不同层面展示句子的依存结构。(2)解析模型的构建,包括解析模型的初始化和权重训练过程两个部分。(3)句子的解析算法,比较了两种常见的解析算法,鉴于依存句法分析是独立于语言的,为了提高系统的可扩展性,最终选择了可以非投影解析的Chu-Liu-Edmonds算法。设计了一套基于图的依存句法分析系统,以python语言实现了包括属性信息提取及构建模型,权重学习和句子解析三个部分。最后完成了算法和模型的测试,基于测试结果分析,不仅对学习算法进行了改进,并且优化了解析模型的存储结构。本文使用清华大学语义依存网络语料,训练语料库有两万句话,测试集有两千句话。首先使用依存对比较少的属性信息训练出一个解析模型,使用测试集对模型进行测试,并分析实验结果。接着增加属性信息训练解析模型,再用测试集对该模型进行测试,对比实验结果。表明,增加依存对的属性信息可以提高系统的准确率。本文还通过实验为使用不同属性信息训练出来的模型确定其最佳的训练迭代次数,防止系统过拟合。最后,本篇论文还比较了基于统计和基于规则对含有单一动词的汉语句子的解析结果,基于以上研究,验证了所提出改进方法是有效的。