论文部分内容阅读
本文研究了自然语言处理的语义层面,提出了汉语语义知识的表示和获取方法,并将汉语语义知识应用到一个基于中间语言的汉英机器翻译系统ICENTII中。 语义分析是自然语言理解的基础。本文在比较了各种语义学理论、各种知识表示方法和现有语义资源的基础上,提出并建立了基于框架的汉语语义知识的层级表述体系,体系由语义原语、义项、语义块三级语义单位和语义规则构成。语义原语是最基本的语义单位,用来描述语义特征;义项表示概念,用语义原语描述;语义块表示复合概念,用嵌套的框架结构描述。在语义框架中,由语义角色定义了各语义成分之间的语义关系。语义规则是组合性语义知识的抽象,由合式语义链和生成块模板两部分构成。合式语义链反映了语义约束知识,即什么样的语义单位可以组合在一起;生成块模板表示了由合式语义链组合在一起的语义单位可生成的新成分的语义结构,其中语义角色刻画了结构中各成分之间的语义关系。在建立了语义知识的表述体系后,本文设计并实现了语义规则的获取算法。在搭配实例语料中,经由统计的方法自动学习获得合式语义链,再由半自动的方式获取生成块模板,得到语义规则。 在建立了汉语语义知识的表述体系并获取了语义规则后,本文将语义知识应用于基于中间语言的汉英机译系统ICENT中,实现了ICENTII系统。 ICENTII系统也是基于中间语言的翻译系统,汉语分析的所有结果都表示在中间语言中,英语生成所需的信息也都从中间语言中获得。因此,中间语言是系统设计的关键。本文在分析了汉语和英语的各种语言现象后,设计并实现了一种基于句法语义的中间语言,用嵌套的框架结构表示。框架中包含一组槽值对,用来说明各种句法语义属性。ICENTII系统的中间语言突出了语义属性的表示,包括词的义项描述和短语、句子的语义关系描述。ICENTII系统的中间语言综合了句法和语义信息,在表示能力和实现复杂性之间进行了权衡,概念粒度适中,表示清楚,实现简单。ICENTII系统的中间语言遵循渐进的开发方法,在系统设计的过程中不断完善。实验证明,该中间语言表示能满足翻译的需要。 ICENTII系统工作的第一步是分词和标注,本文设计并实现了一个语义自动标注算法,对分词结果进行义项的自动标注。标注过程对单义词、多义词和未识别词分别进行处理,利用句法和语义知识确定义项标注集合。语义标注的结果可能不唯一,在语义分析阶段将进一步进行词义的消歧。若义项标注集合中包含正确的义项,则语义标注命中;若义项标注集合有且仅有正确的义项,则语义标注准确。经实验证明,该算法可以达到很高的命中率和较高的准确率,而且命中集合的大小也比较小。 句法和语义是形式和内容的关系,密不可分。本文在汉语的分析中实现了句法分析和语义分析的结合。汉语的分析采用扩展的上下文无关文法,每一条句法产 国防科学技术大学研究生院学位论文生式都对应一个前提判断函数。当分析器要用句法产生式进行归约时,首先激活前提判断函数,在其中调用相应的语义分析模块进行语义分析,只有通过语义分析才可以进行归约,否则当前分析不正确,可以终止。在进行规约时,不但产生了新的句法结构,还生成了与之对应的语义结构。因此,在ICENTll系统的汉语分析中,语义分析引导了分析器的动作。 歧义是自然语言的一大特点,词汇歧义和句法歧义的消解仅通过句法知识难以解决。本文提出了一种利用语义知识消歧的策略,在汉语的语义标注阶段,利用合式语义链进行词汇歧义的消解;在汉语的语义分析阶段,利用语义规则的匹配和生成块可生成性的判定进行词汇歧义的进一步消解和句法歧义的消解。利用语义知识消歧的方法产生了比较满意的结果。 本文的最后总结了全文,井指出了下一步的研究工作。 本文的工作把汉语的分析从句法层面深入到语义层面,建立了完整的、系统的语义知识表示,并把获取的语义知识应用到汉英机译系统ICENTll的各个阶段中。经过对实验语料的翻译,取得令人满意的结果。本文的工作将对进一步的研究工作奠定良好的理论和实践基础。