论文部分内容阅读
在统计机器翻译中,领域问题对翻译系统的性能具有很大影响,当训练语料与测试语料来自同一领域时,翻译效果比较好,反之则翻译性能会下降。随着互联网的发展,用于统计机器翻译的双语平行语料越来越多的来自于网络,这些数据一个重要的特点是领域混杂,没有明确的领域边界。本文将探讨此种条件下,如何提高翻译系统的领域自适应能力。本文首先探讨了双语平行语料的主题挖掘问题,提出了两种融合双语语言信息的主题模型:双语LDA和projected-LDA。每得到一个主题都被视为一个领域,这样,为平行语料库中每个平行句对都获得属于不同领域的概率信息,达到软聚类的目的。本文接着研究了自适应词对齐的技术,在传统的词对齐模型基础上,融入领域信息,得到领域相关的词对齐模型,然后在此基础上搭建领域相关的翻译模型,结果表明,自适应的词对齐模型能一定程度上改善词对齐结果,提高翻译性能。在获得不同领域的翻译模型后,给定待翻译的语句,本文探讨了多翻译模型下的解码策略,根据待翻译语句中的主题分布,选择最相似的翻译模型进行解码。实验证明,该策略能够有效提高系统的翻译系统的性能,最终完成本文提出的任务。