论文部分内容阅读
句法分析的任务是根据给定的语法,自动推导出句子的语法结构。句法分析性能的提高将对信息检索、信息抽取以及机器翻译等应用产生重要的推动作用。 在句法分析的研究中,依存语法以其形式简洁、易于标注、便于应用等优点,逐渐受到研究人员的重视。目前,已经被自然语言处理领域的许多专家和学者所采用,应用于多种语言之中。但由于语料资源以及技术等原因,汉语在依存句法分析方面的相关研究并不多。为了弥补这方面的不足,本文使用基于语料库的统计学习方法,对汉语的依存句法分析技术进行了探索。 首先,实现了一个包含分词和词性标注的词法分析系统,并增加了动词子类标注的功能。区分动词的语法属性是为了减少由动词引起的语法歧义,降低句法结构的复杂度。本文首先制定了一个动词细分类体系,将动词分为8个子类,然后使用最大熵的方法对动词进行子类标注,用以改善句法分析的性能。 其次,进行了短语分析的工作。名词复合短语是各种语言中的普遍存在的一种语法结构,对信息抽取、机器翻译等应用有很大的影响。由于传统的句法分析对此类结构的处理不够理想,本文对名词复合短语进行专门处理,以降低句法分析的难度。针对汉语名词复合短语的特点,本文提出一种基于隐马尔科夫树模型的名词复合短语分析方法,较好地解决了此类短语对句法分析的影响。 另外,句法分析对句子的长度非常敏感,随着长度的增加,句法分析的效率以及准确率均会受到严重的影响。为了减少句子长度的影响,本文对句子片段进行识别。先将句子划分为多个片段,并使用基于支持向量机的方法对每个片段类型进行识别;然后对片段进行依存分析,再识别出各片段之间的依存关系,最后将各个片段组合为一个完整的分析树。 在以上三种技术基础之上,根据汉语的特点,本文探索了一个高效的汉语依存句法分析算法。针对汉语语法结构灵活、树库资源不是非常充分的情况,本文使用分治策略对句子中的一些特定语法结构进行预处理。在搜索算法上,使用动态局部优化的确定性分析算法对句子进行解码,提高了搜索的效率。 为了检验汉语依存句法分析方法的扩展性,并探索单语依存分析同多语依存分析的不同之处,本文最后实现了一个基于分步策略的多语依存分析系统,并在CoNLL2006的数据集上进行了实验。通过对实验结果的分析以及同评测结果的比较,验证了本文方法的有效性。 本文前面的词法分析、短语分析、句子片段识别三部分工作是为句法分析服务的,每部分工作在不同层面上解决了汉语依存分析中的难点问题,对句法分析工作做了有力的支撑。后面的两部分工作分别在汉语和多语方面对依存句法分析做了理论和技术上的探索。