基于依存边转换和嵌入句子类型的机器翻译方法

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ZHANGLIAO2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译的发展历经基于规则的翻译方法、基于统计的方法方法和基于神经网络的翻译方法。纵观不同的翻译方法,机器翻译的建模过程,从基于规则的小空间精确推理,到基于统计方法的大空间概率化搜索,再到端到端的神经网络数值化词汇表级的超大空间的分类搜索,搜索空间越来越大,知识表示的直观性越来越弱。基于规则的方法通常借助语言学知识实现源语言到目标语言的转换。其中,基于转换的方法,通过分析-转换-生成三个步骤构建翻译过程。首先对源语言进行句法分析,然后对源语言的句法树进行结构转换,最后生成目标语言译文。其每个步骤都是精确地推导完成的。统计机器翻译方法则将概率引入到翻译框架中。通过特征分数排序进行统计排歧。翻译的建模过程虽仍具有直观的可解释性,但搜索空间变大,噪声增强。神经网络翻译模型则将源语言到目标语言的映射通过纯数值化的向量的线性和非线性运算连接起来。其网络框架具有一定的直观可解释性,但翻译过程全部采用纯数值化的向量运算进行建模,不再具有直观的可解释性。  本文主要提出了两种改进的机器翻译方法:第一种是基于依存边转换的统计机器翻译方法,第二种是嵌入句子类型的神经网络机器翻译方法。前者是一种独立的基于句法的统计机器翻译方法,而后者是对现有基于注意力的神经网络机器翻译的一个改进。  现有的统计机器翻译方法包括基于词的方法、基于短语的方法和基于句法的方法。基于词的方法和基于短语的方法中,词语调序都是依赖于调序模型和语言模型的,虽然调序的方式非常灵活,但无法对长距离调序进行建模。基于句法的方法通过带变量的同步语法对长距离调序进行建模,但这种同步语法对调序的约束过于强烈,调序形式无法跳出同步语法的约束。本文提出的基于依存转换的机器翻译方法,保留了上述两类模型的优点,通过依存边转换,将源语言词语的依存关系转换成目标词语的依存关系,保留了目标语言句子中的长距离依赖,同时,目标语言的语序又不受同步语法的约束,而是使用独立的生成过程,确定目标语言的语序。  在神经网络机器翻译中,目标译文的生成依赖于解码器隐状态、上一个生成的词和注意力机制所关注的源端部分,没有考虑句子的整体类型。然而,句子的整体类型对句子的翻译有明显的帮助和直接影响。在汉英翻译中,特殊疑问句的疑问词在中文端常出现在句尾,而对应的英文端的则出现在句首。根据这一直觉,本文定义了一种隐含的细粒度的句子类型,并且把这种句子类型表示为一种句子类型向量形式,融入到神经网络机器翻译中。句子类型向量推导器作为整个网络的一个组件,与其他网络部分完全融为一体,以神经网络翻译为目标,整体训练。  本文的主要研究成果包括:  1.基于依存边的转换翻译模型  之前的基于句法的统计机器翻译模型通常采用同步文法建模翻译的过程,几乎没有工作采用基于分析-转换-生成的方式。本文,本文展示了基于规则的分析-转换-生成的方法在统计机器翻译下的实践。这里主要包括三个步骤:句法分析,句法结构转化和目标语言生成。每个部分独立建模,打破了同步文法的约束。本文采用依存边作为基本的操作单元。大规模的实验显示,在汉英翻译上,本文的模型取得了当前主流水准的效果,此外,本文的翻译规则相比于基于短语的模型要小得多。  2.依存边转换翻译规则编码解码器  统计机器翻译模型,特别是基于句法的翻译模型,其翻译单元在保留足够的翻译信息以及翻译单元在翻译新句子时的泛化能力上始终存在着一个平衡。神经网络被成功用于统计机器翻译模型中的调序和端到端机器翻译中。本文提出了一个新颖的基于神经网络的句法翻译规则编码解码器一依存边转换翻译规则编码解码器(DETED),它利用一条转换翻译规则的源端以及源端的上下文作为输入,以依存边转换翻译规则的目标端作为输出。它不仅保留了依存边一这种最简单的句法翻译规则的灵活性,保证了翻译规则的泛化能力,同时通过上下文信息增强了转换翻译规则的匹配能力。编码解码器的结构非常简洁,它将翻译规则的源端作为输入,同时生成翻译规则目标端的对应翻译以及依存边的位置关系。本文使用编码解码器对解码时所用到的依存边转换翻译规则打分。本文在三个NIST测试集上的实验显示,相较于基线系统,平均有1.39个BLEU的提升。  3.嵌入句子类型的神经网络机器翻译模型  端到端的神经网络机器翻译(NMT)学习给定一个源语言句子下的目标语言句子的条件概率。目标语言的译文生成依赖于解码器隐状态、目标译文的上一个词和基于注意力机制所关注的源端部分。句子的整体类型较少被考虑。本文提出了一个嵌入句子类型的神经网络机器翻译模型(SCENMT)自动发掘句子间的关系。给定一个源语言句子,本文首先根据学习得到的源语言句子表示生成一个句子类型向量,然后利用句子类型向量影响翻译过程。本文模型的所有参数均随机初始化而不进行预训练。大规模的实验表明,在汉英和英德上,本文的模型均取得了显著提升。
其他文献
在大数据和“互联网+”应用的牵引下,中科院计算所提出3C融合和虚拟云服务下的未来移动通信网络体系结构——超级基站系统,采用“物理集中、逻辑分布”的资源池化共享技术,满足
随着因特网的迅猛发展,在线的可用电子信息也迅速增加,电子邮件作为一种最快捷、最经济的通信方式,也得到飞速发展。但是同时,许多垃圾邮件也在网络中蔓延,占据了邮件服务器的大量
信息技术的进步体现在对处理数据量、数据结构复杂度、操作复杂度、响应时间等指标的要求不断提高.在人类探索实现高性能数据库系统的过程中并行数据库和实时数据库逐步成为
针对局域网出口的拥塞现状,阐述了实现此类拥塞控制的基本考虑.设计了一个基于侦听机制的网络拥塞控制模型(i-NCCM),给出了其主要构成部件及各组成部分的功能,说明了系统的工
学位
随着计算机处理能力的提高,高速网络技术的发展和各种数字音频视频设备以及数据压缩技术的不断出现,视频点播等交互式视频服务受到了越来越多的关注.由于资源的共享,视频服务
该文首先介绍了安全数据库的概念和安全数据库的分级,然后介绍了推理通道的概念以及多级安全数据库中推理通道的研究现状,并且描述了一些检测和消除推理通道的方法.该文通过
成批生产车间作业调度问题(JSSP)已被研究了几十年并被证实为NP完全性问题.对此类问题的求解是计算机科学技术中的瓶颈任务,由于存在众多约束条件,使得该问题不存在有效的多
对光盘机械系统动态特性进行系统研究和定量分析的基础是对其建立较为完善的、足够准确的数学模型.在系统地研究有关结构和实验资料的基础上,我们给出了光盘机械系统轴向和径
空间数据库管理系统是用来存储和管理空间数据和常规数据的数据库管理系统.目前,用户己不再满足从空间数据库中获得原始的数据,更需要获得关于这些数据的抽象信息,从而使空间