论文部分内容阅读
机器翻译是利用计算机把一种源语言转变为另一种目标语言的过程,其依赖的技术与自然语言处理,人工智能,计算机语言学息息相关,是当前最重要,最具挑战性的课题之一。目前最主流的机器翻译方法是基于短语的统计机器翻译。其基本流程可以概括为:分析双语平行句对、从大量词对齐的句对中学习带有翻译特征的短语翻译规则、使用短语翻译规则构建翻译模型,对于待翻译的句子,通过一系列的翻译规则之间的组合,解码后,得到最优的解码方案作为翻译结果。翻译效果的信、达、雅一直是机器翻译从业者孜孜不倦的追求目标,但是传统的统计机器翻译中的翻译规则是一种上下文无关语法(SCFG),这种规则并没有考虑到全文的主题信息对翻译规则的影响,也没有考虑文本单句间的上下文信息对翻译规则选择的影响,不能进行跨领域的自适应翻译。针对传统机器翻译的这一缺陷,本文对原有翻译模型进行改进,加入了新的调序分类模型,把上下文信息的相关特征加入到解码的考虑范围内,实现了跨领域的自适应翻译,达到了更好的翻译效果。实现基于上下文信息的领域自适应翻译所采用的方法有:(1)在翻译规则中加入和主题有关的特征。在不同领域中,同样的源语的翻译文字很有可能是不相同的,领域的主题信息对于源语的翻译结果产生很大的影响。在统计机器翻译的解码过程中,新加入的和主题由关的特征可以提供规则选择的依据。利用短语和待翻译文档的主题匹配度作为选择依据,以实现不同领域主题下的自适应翻译。(2)利用句内信息实现翻译规则动态选择以达到自适应翻译的目的。我们知道,一个句子中相同的短语,在翻译过程中,被翻译成的文字受到上下文信息影响较大,不同的上下文对翻译结果和短语翻译的顺序会产生影响。传统的基于统计的机器翻译并没有考虑句内信息对翻译规则选择的影响。本文通过加入以句内信息为特征的最大熵分类模型,实现了翻译过程中根据句内信息对翻译规则动态选择和短语间的调序,提升翻译效果。实验结果表明,把待翻译文档的上下文信息中主题信息,句内信息等有用特征加入到统计机器翻译的解码过程中,能很好的提升翻译质量,达到更好的翻译效果。