论文部分内容阅读
句法分析是自然语言处理的一个基本问题。许多自然语言处理任务,如机器翻译、信息获取、自动摘要等都要依赖句法分析的精确结果才能最终获得满意的解决;另一方面,语言是思维的载体,对自然语言句法分析的研究有助于研究人类思维的本质。因此对自然语言句法分析的研究具有重要的理论价值和深刻的哲学意义。
本文列举分析了几种主流句法分析模型在汉语分析中的性能、特点,提示了造成这些模型在分析英语和分析汉语时性能差异的原因。调查指出,国内关于汉语的自动句法分析大体上处于实验阶段,有一些小规模的汉语“树库”,理论、算法研究方面正在进行艰苦的探索,并且明确指出当前汉语分析的主要问题是:模型构造要考虑汉语语法灵活和针对汉语语法层次模糊的特点,以及如何在语料规模较小的情况下,最大可能获得消除句法分析岐义的信息。通过对已研究成果的分析和继承,提出了本文中解决如何通过在上下文语境中已消岐词义句型信息对待消岐的句型进行消岐方法。
为了能实现全局寻优,本文提出了以下创新思路:
1、定义了两个概念:连环交集型和混合型岐义字段,指出以中科院词法ICTCLAS系统为代表的目前各主要词法系统的切词缺陷,并结合《知网》词汇相关度对最大概率法的“费用”进行修正,有效地解决普通交集型、组合型、连环交集型和混合型岐义切分现象。
2、为了实现分词、新词认别、词类标注、词义标注、句型分析几个阶段全局一体化寻优,提出了“N—最短路径”Viterbi词类粗标注算法。
3、提出了基于《知网》的两个词汇语义实际相关度在具体句子中动态计算方法,并指出词汇整体相关度和词汇语义实际相关度在不同场合的使用方法。分词阶段使用词汇整体相关度,而后者则在词义消解与句型消解阶段中使用。
4、指出目前二元、三元HMM解决词义消解和基于现代汉语语法信息词典进行词义消解的困难,提出了基于《知网》的两个词汇语义实际相关度词义消解算法。
5、利用统计为主,规则为副的方法定义句子成分结构语义关联度,并利用它对PCFG算法结果进行筛选,实验结果表明对几种常见句型能有效地消解。
6、提出一种分词、新词认别、词类标注、词义标注、句型分析一体化全局寻优的算法,并作了算法分析。