论文部分内容阅读
机器翻译是自然语言处理领域的一个重点和难点问题,拥有着巨大的科学研究价值以及广阔的商业应用前景。近年来,基于实例的机器翻译发展十分迅速,取得了较为突出的成绩。基于实例的机器翻译其翻译性能非常依赖于实例库的质量,而实例库的质量体现为实例能够被正确检索的概率。如何有效提升实例库质量进而提升翻译系统性能,一直以来都是研究人员共同努力的方向,也是基于实例的机器翻译的研究热点之一。近年来,基于实例的机器翻译系统普遍采用结构化的方式存储翻译实例,在实例中融入更多的句法结构和语义信息,以提升实例的可靠性。句法结构实例的获得往往需要对原始语料进行分词、词性标注和句法分析的预处理,传统方法往往对这三大基础任务作管道式的依次处理,这会导致任务间既存错误的迭代传递进而影响结构化实例的准确性和可靠性。本文以此问题为切入点,以汉英实例机器翻译为主要研究方向,重点研究了基于实例的机器翻译中结构化实例库的构建方法。本文的主要研究成果包括:(1)提出了一种汉英依存树到串实例库的构建方法。一方面,融入中文词法句法分析联合模型对中文语料进行处理,旨在降低汉英EBMT中源语言端基础任务中的错误传递,提高提取层次间特征的准确性。其可靠性在大规模训练语料的实验下得到了有效验证。另一方面,基于传统方法的同时结合本系统的实际情况,提出了一种实例泛化的方法,可有效提高实例的实用性。(2)基于本文构建的汉英依存树到串实例库,对传统的相似实例检索及译文生成方法作了相应的改进,完善了系统的相似实例检索及译文生成模块。(3)对本文提出的系统各模块方法进行有机整合,形成了一个完整的实例翻译系统。系统性能在大规模训练语料的对比实验下得到了有效验证。本文方法首次将中文词法句法分析联合模型融入基于实例的机器翻译系统中,借以构建高质量的汉英依存树到串实例库,并完整实现了一个基于实例的机器翻译系统。机器翻译系统性能比较的实验证明了本文所提方法的有效性,可有效获取正确率较高的译文。融入联合模型的对比实验结果表明,本文将中文词法句法分析联合模型融入实例机器翻译系统中的方法可以有效提升译文质量,改善系统性能。