论文部分内容阅读
统计机器翻译是一种以大规模平行语料为基础,从互为翻译的双语文本中统计学习翻译知识、构建翻译模型,进而利用此模型完成翻译任务的自动化翻译技术。当前,统计机器翻译系统由规模较大、领域混杂的平行语料训练获得,面向非特定领域翻译任务时,往往表现出较好的翻译性能。然而,针对特定领域翻译需求,例如,科技文献翻译,通用领域机器翻译系统无法根据特定领域知识和特有的语言表述形式,做出适应性调整,导致特定领域机器翻译性能降低。为此,本文集中研究统计机器翻译领域适应性问题,并提出解决这一问题的新方法,主要研究内容归纳如下:1)通用领域平行语料库建设平行语料库建设旨在收集互为翻译的双语文本,是统计机器翻译领域适应性研究必不可少的资源基础。其中,识别双语网站内平行网页对是平行语料库建设的关键步骤。针对此问题,本文提出一种基于链接的平行网页对识别新方法。该方法能够充分利用网页对之间的内部信息和外部信息,识别双语网站内的平行网页对。实验结果表明,相较于基准系统,本文所提方法在测试集上提升6.2个F值点(%),可以验证该方法的有效性。2)特定领域双语句对选择面向特定领域的翻译任务往往缺少充足的目标领域平行资源,双语句对选择方法旨在从大规模通用领域双语句对中,抽取与待翻译文本领域相关性较高的句对,用以增补或形成专门的领域双语知识库,并唯一地用于特定领域的机器翻译系统。针对此问题,本文从句对生成建模的角度出发,提出三种基于翻译模型和语言模型相融合的双语句对选择方法。该方法能够合理评价双语句对的领域性及互译性。实验结果显示,利用本文所提方法选择双语句对并训练翻译系统,相比于基准系统,在测试集上平均提升3个BLEU值(%)。3)通用领域和特定领域翻译模型融合特定领域双语句对选择旨在从通用领域平行语料库中,抽取Top N领域相关性较高的平行句对,并用于训练领域机器翻译系统。然而,N值往往难以自动优化。为此,本文探索在模型层次上融合不同领域翻译模型,并提出一种基于翻译模型特征加权的融合方法。该方法能够重新调整通用领域翻译模型翻译知识分布,使之近似于目标领域,进而提升通用机器翻译跨领域适应能力。实验结果表明,相比于基准系统,利用本文方法优化后的系统在测试集上平均提升2个BLEU值(%)。