论文部分内容阅读
在国际交流日趋频繁的当今时代,机器翻译减轻了不同国家和地区的人们在信息交流中因为语言差异带来的障碍。机器翻译质量估计是在不借助人工参考译文的情况下自动估计机器译文的翻译质量,它在机器翻译后编辑和辅助机器翻译中发挥着重要的作用。首先,本文针对句子级别的译文质量估计任务提出了一种联合神经网络模型。传统的神经译文质量估计模型由两部分组成:一部分是基于双向循环神经网络的编码器-解码器子模型,该部分可认为是特征提取模块;另一部分是计算译文质量估计得分的循环神经网络子模型,该部分可认为是有监督的回归模块。我们将这两部分子模型联合成单一的端到端的神经网络模型,该模型中编码器-解码器子模型使用大规模的双语平行语料进行预训练,而整体模型参数使用译文质量估计任务语料进行统一训练。其次,我们提出了融合不同子词切分方法的神经译文质量估计方法。为了克服词表过大给神经机器翻译模型构建和训练造成的不利影响,近年来,学者们提出了BPE和SentencePiece子词切分方法,它们极大地提升了机器翻译质量,但是,还没有研究工作调查不同子词切分方法对神经译文质量估计的影响。在深入分析BPE和SentencePiece子词切分方法优缺点的基础上,我们提出融合词语切分、BPE子词切分和SentencePiece子词切分的神经译文质量估计方法。我们在WMT17、WMT18句子级别译文质量估计任务上验证了本文提出的两种方法,实验结果表明我们提出的方法显著地提高了译文质量估计的性能。并且,我们使用本文提出的联合神经网络模型参加WMT18句子级别译文质量估计任务,评测官方公布的结果中,在6个机器翻译译文评测子方向上,联合神经网络模型在英语-捷克语、英语-拉脱维亚语的统计机器翻译和神经网络机器翻译方向上取得了第1名;在德语-英语、英语-德语神经网络机器翻译方向上与阿里团队参与的系统并列第1名;在英语-德语统计机器翻译方向上取得第3名。