论文部分内容阅读
机器翻译技术是一种能自动将一种语言翻译成另外一种语言的自然语言处理技术。近些年来,随着机器翻译技术的日趋成熟,涌现出各种不同方法来解决机器翻译问题。为了充分利用各种翻译系统,扬长避短,研究者将成功应用于多个领域的系统融合技术引入机器翻译方法中,并取得了较好的成果。在最流行的统计机器翻译系统框架下,训练翻译模型往往需要大规模的训练语料。然而在一些小语种的翻译任务上,并不能获得很多的平行语料训练翻译模型。为了在不能得到多个翻译系统的融合任务上提升系统融合技术的融合质量,本文提出通过对翻译假设进行同义复述,引入更多有用信息到翻译假设集中,供系统融合选择,从而提升融合质量。为了利用复述技术产生翻译假设的复述结果,融合更多有用信息到翻译假设候选集中,从而提升系统融合性能,本研究主要从以下几个方面研究基于复述的机器翻译融合技术:(1)基于词级别复述的机器翻译系统融合方法。该方法主要是利用翻译假设之间的对齐信息,找出最有可能被复述的词,作为复述点,通过引入大规模的单语语料利用此的词向量表示产生与复述点语义一致的词,生成原翻译假设候选集的复述句子。通过这种方法,以词为基本粒度,对翻译假设集信息进行拓展,提升了最终的融合质量。(2)基于短语级别复述的机器翻译系统融合方法。该方法以短语为基本粒度,产生与翻译假设集语义一致的复述结果。通过利用大规模平行语料抽取短语复述资源;利用该复述资源,通过对数线性模型,利用语言模型,复数概率等特征对复述句子进行打分,使用柱状搜索算法对翻译假设进行解码,产生具有最大概率的复述结果。利用该方法产生短语级别的复述结果,给后面的系统融合步骤提供更多的选择。(3)基于句子级别复述的机器翻译系统融合方法。这部分通过近些年来较为流行的神经网络模型,利用RNN Encoder-Decoder结构,训练一个以翻译假设为输入,参考译文为输出的神经网络模型,以句子为基本单位对翻译假设进行复述,产生相比于机器翻译结果具有更高质量的语义一致的复述句子。该模型通过将输入句子转换为一个向量表示并对齐进行解码,产生了输入句子的另外一种语义一致的表达方式。通过句子级复述信息的引入,提升了机器翻译系统融合的质量。实验结果表明,通过复述技术的引入,补充了更多高质量的信息到翻译假设候选集中,给融合系统更多的选择,提升了机器翻译系统融合的质量。复述主要通过利用单语语料,往往并不需要大规模的双语平行语料。在一定程度上,该缓解了缺少机器翻译系统造成的系统融合性能较低的问题。