论文部分内容阅读
词汇对齐(Word Alignment)是指在源文和对应的译文中刻画词汇互译关系的过程。由于词汇的对译关系是刻画其他翻译关系的基础,所以自动词汇对齐是其他跨语言信息处理的基础技术,一直受到研究者的重视。本文在综述词对齐主要方法和分析该技术最新进展的基础上,引入半指导的判别式词对齐方法提高了英汉词对齐性能,并且探索了统计特征和先验知识相结合的多特征策略,进一步改进了词对齐效果。最后将这一方法应用于英汉词汇互译检索中,设计并实现了“绿洲”双语检索系统,解决了以往此类系统存在的候选互译词汇过多、检索效率低的难题。本文主要具体的包括如下内容:首先,介绍了半指导的判别式英汉词对齐模型,详细的介绍了半指导判别式模型中采用的EMD(Expectation maximization and discriminative,期望最大化与判别相结合)训练算法,该训练算法结合了EM(Expectation maximization,期望最大化)训练和判别式(Discriminative)训练两方面的优点能够从特征和特征权重两个方向上对模型进行训练,从而提高了判别式词对齐的性能。介绍了NBest解码算法,NBest解码算法能够保留更多的扩展候选,从而可以减少搜索错误的产生,提高词对齐性能。其次,分层次的介绍了在词对齐研究中经常使用的特征,并对特征进行了归类分析。在分析的基础上,选择了词义相似度和词性翻译概率作为纯先验特征和统计先验相结合特征的代表,将这两种特征添加到纯统计特征为基础的判别式系统中,并对这两种特征带来的影响进行了分析。实验结果表明,纯先验特征的添加要比统计先验相结合的特征更能够带来系统性能的提升,纯先验知识的添加有利于提高模型的收敛速度。最后,本文通过在常规判别式模型的基础上添加三个新的特征,并使用召回率作为优化目标,获得了一个召回率96%的词对齐结果。将高召回率的词对齐结果应用到词汇互译检索系统中去,实现了一个基于词对齐的“绿洲”词汇互译检索系统。该系统能够使用高召回率的对齐结果获得源语词和译文候选对应词的对译关系,并能实现高效方便的检索。实际应用表明该系统能够很好的降低噪声,提高辞典编纂者的效率。