论文部分内容阅读
机器翻译是人工智能领域的重要研究课题之一,主要目标是研究如何使用计算机实现一种自然语言到另一种自然语言的自动转换。随着互联网的不断发展和研究方法的不断改进,机器翻译性能也随之不断提高。虽然从目前的研究现状来看,神经机器翻译在资源丰富且有大规模高质量广覆盖面的平行语料的语种上取得了很好的翻译效果,但是在平行语料稀少的语种上却表现不佳。然而作为一种数据驱动的方法,只有当训练语料库达到一定的要求,其才会体现出较好的翻译效果,而少数民族地区经济文化发展普遍相对缓慢,可以收集到的平行语料资源相对较少。在这种情况下,神经机器翻译很难取得理想的效果。因此,为了充分利用现有单语数据提高蒙汉机器翻译系统的性能,本文进行了基于单语语料库训练的蒙汉机器翻译的研究。首先,针对蒙汉机器翻译中平行语料资源稀缺的问题,总结出实现基于单语语料库训练的三大原则:预训练语言模型、初始化翻译模型和迭代回译优化初始翻译模型。并就三大原则中的第一条进行了深入的研究,发现基于多头自注意力机制融合蒙汉单语和双语语料预训练跨蒙汉语言模型能够在很大程度上提升翻译模型的性能。其次,另外一个工作是对语料进行融合不同粒度的切分比较。蒙古文词的数量庞大,而且可以通过在词干后添加附加成分来构造新词,因此翻译模型无法覆盖所有词,故未登录词的问题会一直存在于词级翻译模型中。而蒙古文字符数量有限且数量较少,所有词都由字符序列组合而成,这种字符序列有一定的组合规律,适合神经网络模型去学习,故研究融合不同粒度的切分方法来预处理语料,实验结果表明:该方法能在一定程度上缓解蒙汉机器翻译中未登录词的问题。最后,对基于单语语料库训练的蒙汉机器翻译模型与基于平行语料库在LSTM神经网络上训练的蒙汉机器翻译模型进行了对比实验,采用机器翻译常用的评测标准BLEU值,将结果做了对比分析。实验表明:融合蒙汉单语和双语语料预训练跨蒙汉语言模型可在很大程度上优化基于单语语料库训练的蒙汉机器翻译模型,且优化后的翻译模型与使用10万句对双语语料训练的蒙汉机器翻译模型的BLEU值接近。由于单语语料库比双语语料库容易得到,所以基于单语语料库训练的方法在提升蒙汉机器翻译系统性能方面有一定的优势。