论文部分内容阅读
句法分析是自然语言处理研究中的关键技术之一,其任务是根据给定的语法,自动推导出句子的语法结构。它对于机器翻译、信息检索、信息抽取、文本分类和自动文摘等自然语言处理系统都有着极其重要的意义。句法分析是依赖于某种语法理论的,在形式语法体系中,依存语法逐渐成为研究人员重视的热点。依存句法分析技术也不断得到发展和完善,并在英语等印欧语言中取得较好的研究成果。但目前为止针对汉语在依存句法分析方面的相关研究并不多见,汉语的依存分析研究成果与比印欧语言逊色得多。为此,本文采用基于统计理论的学习方法,针对汉语特有的语法特点,对汉语的依存句法分析方法进行了研究和探索。本文主要采用决策式的依存句法分析方法,解决了汉语句法分析中存在的一些问题。本文工作的主要贡献和创新点如下:1.提出并实现了一种针对汉语长句的决策式分析方法CLDP。该方法针对汉语复杂长句句法分析存在的困难,考虑一种“分而治之”的处理策略,采用分层分析的方法,把复杂的句法分析问题分解为几个易于处理的子问题,以降低分析难度,提高分析效率。本文提出并实现了非贪婪的考虑长距离依存的决策式汉语分析方法N-CLDP。该方法利用汉语句子中根的唯一性对长句进行了分割。实现时,利用机器学习方法SVM设计了一种高效的根搜索器Root-Searcher,该根搜索器Root-Searcher可以标记出每个句子的根结点,依据根结点,句子被分割成两个子句。对子句分别进行依存分析后,进行子句的连接。把两个子句的根结点合二为一,合并两个子依存结构,从而得到长句的完整的依存结构。实验数据表明,本文构造的根搜索器Root-Searcher具有较高的准确性。在长句占的比例较大的训练集和测试集上,本文的方法达到了较好的分析性能,有效降低了句子的复杂度,显著地提高了句法分析器的准确率。2.提出并实现了一种基于二段式的子句依存分析方法TSP。本文针对决策式依存分析中存在的Early-reduce问题,设计并实现了二段式的子句依存分析方法。该方法采用了有效的特征组合,利用二段分析,特征复用等手段有效解决了汉语右依存中动词与动词之间,以及动词与介词之间的VP Early-reduce问题,并且降低了算法的贪婪性。另外,本文提出并实现了子句的双向分析策略BSP。根据分割后句子的特点,以及汉语语言所具有的投影性特征,提出了采用向前分析和向后分析相结合的策略。在分析时将从前向后与从后向前两种分析方向结合使用。实验中将二段式句法分析策略与一次分析进行了性能比较,并考察了句法分析方向对于分析结果的影响。实验结果表明本文的二段式的子句依存分析方法TSP提高了句法分析器的性能。子句的双向分析策略BSP也比单向分析获得了更好的分析效率。3.提出并实现了一种基于介词短语右边界的自动识别的依存句法分析算法RPP。根据介词短语的语用特征,提出一种对介词短语的后续词进行分析的方法,相应得到介词短语右边界的识别方法。通对过介词短语的分析,有效解决了决策式分析方法在分析介词短语时存在的缺陷。避免了分析介词在长距离依存时,由于过早比较、提前决策依存关系出现的错误。实验结果表明本文实现的基于介词短语右边界的自动识别的依存句法分析算法RPP对汉语的介词的长距离依存分析是有效的。