论文部分内容阅读
随着互联网的高速发展,人与人之间的跨语言交流也日益频繁,完全依靠人去处理互联网上日益增长的翻译需求显然是不可能的。机器翻译便是解决这一问题的有力手段之一。机器翻译凭借更高的翻译效率和更低的翻译成本,在工业界获得广泛应用,也一直是自然语言处理领域的研究热点。基于对数线性模型的统计机器翻译方法一度将机器翻译的研究推向了新的层次。然而经典的统计机器翻译中短语翻译规则和层次短语翻译规则是在大规模数据中通过统计方法得到的,没有任何语言学信息的指引,使得规则数量众多并且质量参差不齐。同时,由于缺乏显式结构信息的建模,翻译系统在解码时常常无法选择出合适的翻译规则,从而无法得到正确的译文。结构化信息缺失问题同样出现在时下备受关注的神经机器翻译模型中,它通过神经网络实现源语言序列到目标语言序列的映射,源语言端缺乏对结构信息的认知往往导致系统对源语言的理解产生问题,而目标语言端缺乏结构信息的指引会难以处理词与词之间的关系,从而导致错翻、欠翻译和过翻译等问题,进而制约着翻译性能的提升。本文针对机器翻译方法中的结构化信息利用问题展开研究,主要工作如下:1.针对统计机器翻译中的规则庞大且质量不一的问题,本文提出一种基于句法树状态的规则选择模型用以约束翻译规则的使用。同时,本文定义翻译规则的上下文特征抽取方法,用于训练判别式模型以及预测规则的句法树状态概率,最后这一概率将作为对数线性模型的额外特征,用以判别规则在句子中的使用是否合适。中英机器翻译实验的结果表明,本文提出的方法能够有效提高机器翻译系统的性能。2.针对神经机器翻译对结构信息描述能力不足的问题,本文提出基于短语的神经机器翻译,同时在源端和目标端引入短语结构并建模两者之间的对应关系。中英机器翻译实验的结果表明,该方法能显著提高机器翻译的性能。