论文部分内容阅读
机器翻译的发展历经基于规则的翻译方法、基于统计的方法方法和基于神经网络的翻译方法。纵观不同的翻译方法,机器翻译的建模过程,从基于规则的小空间精确推理,到基于统计方法的大空间概率化搜索,再到端到端的神经网络数值化词汇表级的超大空间的分类搜索,搜索空间越来越大,知识表示的直观性越来越弱。基于规则的方法通常借助语言学知识实现源语言到目标语言的转换。其中,基于转换的方法,通过分析-转换-生成三个步骤构建翻译过程。首先对源语言进行句法分析,然后对源语言的句法树进行结构转换,最后生成目标语言译文。其每个步骤都是精确地推导完成的。统计机器翻译方法则将概率引入到翻译框架中。通过特征分数排序进行统计排歧。翻译的建模过程虽仍具有直观的可解释性,但搜索空间变大,噪声增强。神经网络翻译模型则将源语言到目标语言的映射通过纯数值化的向量的线性和非线性运算连接起来。其网络框架具有一定的直观可解释性,但翻译过程全部采用纯数值化的向量运算进行建模,不再具有直观的可解释性。 本文主要提出了两种改进的机器翻译方法:第一种是基于依存边转换的统计机器翻译方法,第二种是嵌入句子类型的神经网络机器翻译方法。前者是一种独立的基于句法的统计机器翻译方法,而后者是对现有基于注意力的神经网络机器翻译的一个改进。 现有的统计机器翻译方法包括基于词的方法、基于短语的方法和基于句法的方法。基于词的方法和基于短语的方法中,词语调序都是依赖于调序模型和语言模型的,虽然调序的方式非常灵活,但无法对长距离调序进行建模。基于句法的方法通过带变量的同步语法对长距离调序进行建模,但这种同步语法对调序的约束过于强烈,调序形式无法跳出同步语法的约束。本文提出的基于依存转换的机器翻译方法,保留了上述两类模型的优点,通过依存边转换,将源语言词语的依存关系转换成目标词语的依存关系,保留了目标语言句子中的长距离依赖,同时,目标语言的语序又不受同步语法的约束,而是使用独立的生成过程,确定目标语言的语序。 在神经网络机器翻译中,目标译文的生成依赖于解码器隐状态、上一个生成的词和注意力机制所关注的源端部分,没有考虑句子的整体类型。然而,句子的整体类型对句子的翻译有明显的帮助和直接影响。在汉英翻译中,特殊疑问句的疑问词在中文端常出现在句尾,而对应的英文端的则出现在句首。根据这一直觉,本文定义了一种隐含的细粒度的句子类型,并且把这种句子类型表示为一种句子类型向量形式,融入到神经网络机器翻译中。句子类型向量推导器作为整个网络的一个组件,与其他网络部分完全融为一体,以神经网络翻译为目标,整体训练。 本文的主要研究成果包括: 1.基于依存边的转换翻译模型 之前的基于句法的统计机器翻译模型通常采用同步文法建模翻译的过程,几乎没有工作采用基于分析-转换-生成的方式。本文,本文展示了基于规则的分析-转换-生成的方法在统计机器翻译下的实践。这里主要包括三个步骤:句法分析,句法结构转化和目标语言生成。每个部分独立建模,打破了同步文法的约束。本文采用依存边作为基本的操作单元。大规模的实验显示,在汉英翻译上,本文的模型取得了当前主流水准的效果,此外,本文的翻译规则相比于基于短语的模型要小得多。 2.依存边转换翻译规则编码解码器 统计机器翻译模型,特别是基于句法的翻译模型,其翻译单元在保留足够的翻译信息以及翻译单元在翻译新句子时的泛化能力上始终存在着一个平衡。神经网络被成功用于统计机器翻译模型中的调序和端到端机器翻译中。本文提出了一个新颖的基于神经网络的句法翻译规则编码解码器一依存边转换翻译规则编码解码器(DETED),它利用一条转换翻译规则的源端以及源端的上下文作为输入,以依存边转换翻译规则的目标端作为输出。它不仅保留了依存边一这种最简单的句法翻译规则的灵活性,保证了翻译规则的泛化能力,同时通过上下文信息增强了转换翻译规则的匹配能力。编码解码器的结构非常简洁,它将翻译规则的源端作为输入,同时生成翻译规则目标端的对应翻译以及依存边的位置关系。本文使用编码解码器对解码时所用到的依存边转换翻译规则打分。本文在三个NIST测试集上的实验显示,相较于基线系统,平均有1.39个BLEU的提升。 3.嵌入句子类型的神经网络机器翻译模型 端到端的神经网络机器翻译(NMT)学习给定一个源语言句子下的目标语言句子的条件概率。目标语言的译文生成依赖于解码器隐状态、目标译文的上一个词和基于注意力机制所关注的源端部分。句子的整体类型较少被考虑。本文提出了一个嵌入句子类型的神经网络机器翻译模型(SCENMT)自动发掘句子间的关系。给定一个源语言句子,本文首先根据学习得到的源语言句子表示生成一个句子类型向量,然后利用句子类型向量影响翻译过程。本文模型的所有参数均随机初始化而不进行预训练。大规模的实验表明,在汉英和英德上,本文的模型均取得了显著提升。