论文部分内容阅读
统计机器翻译是自然语言处理领域具有挑战性的前沿课题之一,具有广泛应用价值和重要的商业应用前景。随着网络技术的发展和普及,信息量快速增加,各领域对机器翻译的需求量也越来越多。近几年,统计机器翻译技术发展迅速,取得了一系列令人瞩目的成果,但是在实际应用中,如何在统计机器翻译模型中有效利用语言学知识提升翻译质量仍是一个研究热点。机器翻译是文本处理中的一项重要内容,文本处理常涉及的时序关系对文本推理和筛选具有重要意义,而时态则扮演了不可或缺的角色。目前,在统计机器翻译中,关于时态的研究主要局限在时态识别方面,对时态的翻译研究较少。时态信息是重要的语言学信息,因此本文研究的时态问题,转换为在统计机器翻译中融入时态等语言学知识的问题。本文以日语为研究对象,从日汉和日英两个角度,对时态翻译进行研究。日语属于黏着语系,其时态由谓词词尾变形决定,且谓语词尾的变化多种多样,不同时态表达存在相似词尾,导致统计机器翻译的时态翻译精度低下。针对上述问题,本文提出了一种融合时态特征的统计机器翻译方法,主要研究成果如下:(1)提出了一种基于日语依存结构的时态分类方法。该方法通过解析日语依存句法分析结果,并结合目标语言时态特点,提取时态相关信息,构建最大熵时态分类模型。该模型可有效识别时态,其分类准确率表明了该分类方法的有效性。(2)提出了一种面向层次短语翻译模型的时态特征抽取算法。该算法可以实现在抽取翻译规则的同时,抽取满足一定条件的规则的时态特征。这些时态特征可以指导翻译过程的规则选择,使翻译结果更加符合语言学知识,保证了相关词汇选择和语言的结构调序。(3)提出了一种在统计机器翻译中融合时态特征的方法。该方法实现了对不同时态的规则的选择过滤,而没有增加解码器的复杂度。并且对语种没有依赖性,仅需根据语言语法的不同,选择融合单语时态特征或双语时态特征。翻译实验结果表明该方法提升了翻译质量,可有效改善时态翻译问题。本文将时态特征融入统计机器翻译模型。日汉及日英翻译的实验结果表明,本文提出的方法不仅可以有效提高层次短语模型在时态上的翻译精度,还可以达到词义消歧和改善句子结构调序的目的。