论文部分内容阅读
本文提出了一种用于汉英机器翻译的英文生成选词模型,该模型结合基于语义模式和基于实例与统计的选词方法,利用词汇语义搭配知识,有效处理了英文生成选词问题。 选词模型中,基于语义模式匹配的选词算法用来完成词汇初选工作,目的是减少候选词集的规模以降低后继选词步骤的工作量。其基本思路是:对候选集所包含每个词,先从事先构建好的模式库中查出其相应的语义模式,再将中间语言中待确定译文词的词汇概念周边语义槽的具体值与语义模式对应的语义槽限制条件值进行比较,并根据它们的匹配情况计算该词被选中的可能性,最终选择最有可能的词作为选词结果。本文除了用算法实现了该思路,还介绍了用作模式匹配的语义模式库的构建过程,其间,文章提出了语义模式自动训练的模式库构建方式和模糊语义模式的概念,从模式库构建的角度给出了语义模式匹配选词法的改进策略。 基于实例比较和统计的选词算法用来实现对候选词的进一步筛选,是选词模型的主要选词依据。该算法以待确定译文词的词汇概念之周边语义槽具体值与候选词相应实例对应语义槽值的语义近似度计算为基础,根据由这些近似度确定的该候选词的相关统计指标进行选词。算法中用以比较的实例从经语义标注的语料库里抽取而得,为解决语料库的语义标注形式与实际实例中词义应有的语义表现形式不一致的问题,本文在介绍实例抽取的过程时提出并详细介绍了从WordNet到知网的词义映射算法。 全文共分为五章: 第一章是绪论,概述了机器翻译研究的重要意义以及基于中间语言的机器翻译系统中生成模块研究的重要性;提出了本文的研究课题——生成选词问题,并简要比较了不同系统对该问题的处理方式:最后列出了本文的工作要点。 第二章是系统结构和基础知识,提出了选词模型的总体思路,简要介绍其系统结构;并对中间语言表示方法及基于知网的语义计算模型等有关基础知识进行了介绍。 第三章花了大量篇幅集中介绍了支持选词的数据资源之构建情况,包括实例库的构建和语义模式库的构建。其中着重介绍了从WordNet到知网的词义映射算法、模糊语义模式自动训练算法等内容。 第四章是选词模型的算法实现,包括对基于模糊语义模式匹配的选词算法以及基于实例比较和统计的选词语算法的介绍。本章最后还提供了对反语义模式和反例及其在生成选词问题中的可能应用的讨论。 第五章总结了本文的主要工作,讨论本文研究的主要特色,并提出进一步工作的设想。