论文部分内容阅读
机器翻译一直以来都是一个世界难题。语言知识的复杂性和对语言规律认识的有限性是机器翻译的困难所在。人们从机器翻译的探索过程中认识到,要想得到高质量的翻译结果,需要对自然语言的语义进行分析和理解。本文从语义语言理论角度,针对英汉机器翻译中存在的难点问题进行了一系列的研究,主要包括三个方面:(1)容易误解误译的英语的研究。基于大量实例,对容易误解误译的英语词语加以形式化语义分析并进行了实证研究。提出自然语言语义对应中的弯曲现象及语义模块的概念,总结出英汉语义对应中的七种弯曲现象,并对每种弯曲现象下英语误解误译的程度进行了分析比较,总结了民族文化导致弯曲现象发生的九个方面。研究结果表明,英汉语义对应时那些发生弯曲现象的英语表示正好对应于最易误解误译的英语词语。该结论可应用到基于语义语言的机器翻译中以提高机器翻译的正确率。(2)英语隐喻的识别与汉译的研究。提出语义语法模式的概念、提取规则和自动提取语义语法模式的方法。以人体词为研究对象,针对英语人体词隐喻用法的特点,构建了英语人体词特有语义语法模式集、固定搭配集和变量表示库。语义语法模式集包括语法隐喻模式集、词汇隐喻模式集、字面意义模式集、短语模式集、构句模式集等子集。提出了一种基于语义语法模式集、固定搭配集和变量表示库的英语隐喻识别与汉译的合一算法,实验表明,该算法对处理英语隐喻的识别与汉译是有效的。(3)带句法语义变量的模板的提取与应用的研究。提出带句法语义变量的翻译模板及模板自动抽取方法,构建了句法语义类型树,根据句法语义类型树确定翻译模板中变量的句法语义类型,实验表明,使用带句法语义变量的翻译模板,与带语法变量的翻译模板相比,英汉、汉英机器翻译结果的BLEU值分别提高了0.08和0.05。该模板可用于基于语义语言的机器翻译系统中,也可以用于其它EBMT系统中。由于某些带句法语义变量的模版就是语义单元,所以带句法语义变量的模板的提取也可以丰富语义单元库。