论文部分内容阅读
步入21世纪,人类进入互联网时代,急剧增加的网络信息和日益频繁的跨语言交流都极大地扩大了对翻译的需求。鉴于传统基于人工翻译的途径在规模和效率两方面都已经无法满足现有需求,人们迫切希望利用计算机实现自动的翻译,这使得机器翻译技术受到了越来越多的重视。在目前诸多机器翻译方法中,基于统计的机器翻译方法因其强大的学习能力以及较高的翻译效率而得到了广泛的应用。统计机器翻译系统基于统计学习方法从大量平行语料中学习翻译知识,从而实现翻译任务。目前主流的统计机器翻译系统都是基于对数线性模型构建的,其中翻译系统的模型部分(翻译模型和语言模型)均基于训练数据构建,系统的权重基于开发数据调整,而最终的系统性能则通过测试数据评价。然而,当前机器翻译的研究及应用往往面临着训练数据与开发数据之间以及开发数据与测试数据之间的领域不一致问题,这就导致了翻译系统的模型以及权重的不准确,进而影响到翻译系统的性能。本文针对上述领域不一致问题展开领域自适应研究。主要工作包括:一、针对训练和开发数据之间的领域不一致问题,本文提出了基于低维词向量表示的神经网络模型自适应方法,克服了传统的基于离散词汇表示的自适应方法所面临的参数稀疏和开销大的问题。在使用神经网络模型直接解码的框架下,本文针对隐式和显式两种类型的领域信息分别提出了模型自适应的解决方案:1.利用隐式领域信息的模型自适应。本文利用规模较小的领域内开发数据对基于前向反馈神经网络构建的语言和翻译模型做微调,使得原本仅依赖训练数据的模型包含了开发数据的领域信息,从而在翻译过程发挥更大的作用。2.利用显式领域信息的模型自适应。本文在前向反馈神经网络语言模型中加入显式的篇章话题信息,从而使得翻译系统能够根据领域信息生成更合适的翻译结果。二、针对开发和测试数据之间的领域不一致的问题,本文针对静态和动态两个方面提出了解决方案:1.在静态开发数据的场景下,机器翻译系统使用的开发数据固定不变。本文提出了利用测试数据信息对原有权重进行调整的权重自适应途径,即基于交叉熵的语言模型权重调整和直导式最小错误率权重训练两个途径。上述方法都克服了传统权重完全依赖开发数据所导致的权重偏差问题。2.在动态开发数据的场景下,机器翻译系统可以根据需要选取开发数据。本文提出了基于数据向量表示的相似度选取开发数据选取以调整权重的自适应方法。本文使用了数据翻译结果的得分向量作为其表示,从给定的候选开发数据中选取与测试数据接近的部分作为新的开发数据做权重调整。本方法克服了传统基于经验的数据选择方法因缺乏定量相似度衡量而无法通用的问题。论文的实验结果表明:在模型自适应方面,本文提出的基于神经网络的自适应方法能够有效地将不同类型的领域信息编码到模型中,在克服传统方法存在的问题的同时,显著地提升了翻译系统的性能;在权重自适应方面,本文提出的两个场景下的自适应方法都能够针对测试数据有效地调整权重,从而较好地保障了翻译系统在测试数据上的性能。