基于联合双重网络和双向解码的汉泰神经网络机器翻译

来源 :南京大学 | 被引量 : 0次 | 上传用户:safemon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展和广泛应用,人们都处于一个信息高度共享的、更加连通的世界。如今,在学术、工业和商业领域的成果和产出已不仅适用于单一国家,也同样适用于全球的各个角落。因此,随着互联网技术的不断进步,翻译需求也在持续快速增长。  如今,随着技术的发展,人民通讯的渠道不断增多,从各种实体的交通工具,到传统的通讯设备,再到如今火热的互联网电子通信,这些为加强中泰两国人民进行友好的沟通交流提供了各式各样的选择。然而,通向无界世界的一个现实障碍就是语言,它可能成为沟通的瓶颈。因此,产生了大量的机器翻译(MT)技术的需求。搭建一个中泰机器翻译系统是促进和支持未来知识共享、文化交流和技术转让的良好开端。  最初,有些研究人员用神经网络来建立语言模型,代替n-gram模型,作为一个特征融合到统计机器翻译中。后来,一些研究人员提出了纯神经网络的机器翻译方法(Neural Machine Translation,简称NMT)。神经网络机器翻译通常基于编码-解码架构,利用编码器将源句子编码为一个实数向量,然后再利用解码器将这个实数向量转换为目标语言的句子。因为这个架构只用一个实数向量来表示整个句子,所以对长句子翻译的时候,效果还不如统计翻译方法。  近期,神经网络机器翻译已成为机器翻译领域的新的研究思路。基于注意力机制的神经网络机器翻译系统针对多种语言对的翻译质量取得显著提升。经过大量数据训练之后,最先进的神经网络机器翻译系统可以实现令人满意的翻译效果。  因此,我们利用“汉语-泰语”数据集进行了初步实验。本研究所使用的平行语料库由泰国国家电子与计算机技术中心(NECTEC)和中国科学院计算技术研究所收集,其内容为旅游领域的日常对话。  像其他神经网络模型一样,神经网络机器翻译(NMT)也在良好的配置下才能获得理想的效果。在第3章中,我们将讨论不同的网络配置和不同粒度水平下的中泰NMT实验,通过这些实验,我们探索了端到端框架的效果。我们还分析了翻译结果并将其与统计机器翻译的结果作了比较。基于这些结果,我们希望获得可靠的基线模型以便做进一步改进。  中文和泰文句子在文字上都没有明确的单词边界,而其单词划分可能基于不同的规则。泰文没有标准的单词划分规则。中文的大多数单词由一或两个字组成,三字词主要是人名,四字词基本是成语。而泰文引入了复合词的概念,它是由两个词组成的具有新意义的单个词。针对泰文数据,研究人员通常以词或者TCC(Thai character cluster)为最基本单元。TCC单元是由不可切分的泰字组成,而且泰文的词一般有两到四个TCC组成的。  因为两种语言对单词边界的定义有所区别,我们想尝试通过微调泰文粒度使之与中文单词匹配,来减少单词对齐中的多对一映射。微调粒度(Cluster-repacking)的目的是将TCC单元分组,使之与单个中文单词匹配。然后根据微调粒度的结果对泰文数据重新进行分词,希望中泰的单词对应关系更好。  这一实验的结果表明,向训练数据中引入更多的一对一映射,可使NMT获得更好的表现。由于我们的资源有限,Cluster-repacking算法只能捕获大约1000组一对一翻译。使用人工分段数据训练的模型表现更好,因为这会使两种语言的单词对应关系更明确。与统计机器翻译方法比较,实验结果表明:在给定的汉泰语料库下,现有的神经网络机器翻译无法获得更好的翻译质量。  第四章主要介绍了改善解码器的两种方法——语言模型和覆盖向量。我们将两个方法融合进神经网络机器翻译中。在最初的统计模型中,语言模型就被引入机器翻译,作为对数线性模型的一个特征。语言模型至关重要,因为它通过语句组合的规则决定了翻译的质量高低。统计机器翻译一般以n-gram语言模型为特征。最近,有些研究人员提出基于神经网络语言模型,效果比n-gram语言模型更好。基于神经网络的语言模型在语料库中通过端对端方式来构建词的压缩表示。研究证明,长短型记忆循环神经网络与门控循环神经网络等循环神经网络具备捕捉习惯搭配关系的能力,因而可应用于语言序列建模。  循环神经网语言模型已经被广泛应用在自然语言处理方面。翻译过程中,目标词的预测不仅依赖于已经出现的词汇,还取决于语境。Gulcehre等人[59]提出将循环神经网语言模型加入神经网络机器翻译的解码器中的两个策略:1)浅融合;2)深融合。浅融合中,语言模型与神经网络机器翻译的预测进行插值。深融合中,循环神经网语言模型与神经网络机器翻译的隐藏状态被连接起来,预测下一个词语。其他数据库实验显示,深融合比浅融合更有效。因此,实验中我们采用深融合对汉语-泰语数据进行实验。  我们采用神经覆盖向量来提高解码器模型。神经覆盖向量是由Tu等人[28]提出,覆盖向量的目的是为了让注意力机制记下已被翻译过的部分。我们选取基于一个小型数据的实验得到最好的特征,转而应用到汉语-泰语的数据库中,实验结果显示,神经语言模型以及覆盖向量可以有效提高翻译质量。进一步的分析显示,实验模型无法正确翻译实体名词,比如城市名。对此,我们认为,可能是因为城市名词是语料库中的低频词汇,所以模型尚未对它们的表征或词向量进行准确分类。  本论文重点研究如何利用联合双重网络(Conjoined Twins Network)和双向解码器(Bidirectional Decoder)来提高传统神经网络机器翻译的编码器和解码器性能。  1.联合双重训练(Conjoined Twins Training):  训练非常深的网络存在梯度消失的问题,所以在编码器和解码器都采用LSTM或者GRU来增加模型的记忆能力。虽然这在一定程度上缓解了梯度消失的问题,但是编码器和解码器之间还有多层的非线性变换。一般编码器和译码器通过一个多层前馈网络相互连接,从输出层反向传播到编码器的梯度会被多层非线性变换阻碍。而且,随着模型深度的加深,优化模型就变得更困难,尤其是在数据受限的情况下。因此,在汉-泰的数据集上现有NMT模型的编码器无法有效地表达源词汇含义。  一些之前的工作主要依靠给网络相邻层之间增加捷径,使得输出和输入层离的更近,以便在Back-Propagation的过程中,误差更流畅的反向传播。在之前的图像处理任务表明,这样的方法可以比传统的前馈神经网络取得更好的效果。在机器翻译任务上,之前的工作也发现过类似的问题,尤其是在数据受限的情况下。有些工作采用多任务方法(Multi-tasking approach)来强化NMT的编码器。多任务方法一般是从一个语言翻译到多个语言的模型。这些方法显著提高翻译质量因为给了编码器学习更多的数据。这样的方法需要更多的数据才能实现。  因此,我们提出了联合双重训练法。此方法采用了一个共用编码器以及两个不同初始权重的解码器。这两个解码器均旨在输出同样结果。这样一来,共用编码器就不得不将源词语/语句的含义表达充分,从而让两个译码器输出同样结果。为了优化模型参数,提出两步式训练:第一步为联合训练;第二步为微调训练。首先,开展了联合训练:一起优化了编码器和两个译码器。其次,我们开展了微调训练:仅仅优化了编码器和第一个译码器,从而获得最终模型。结果表明,这个训练策略显著提高了神经网络机器翻译效果。  2.双向解码器(Bidirectional Decoder):  一般而言,偏差暴露(Bias Exposure)问题在解码过程中会引入噪音,如果在解码的过程中出现一点错误,这个错误会对后面的解码过程影响非常大,因为一般解码器只能从左到右的解码。因此,我们提出了一种双向译码方法,从而克服了这个问题。为此,我们采用了两个解码器:一个从右到左输出结果;另一个则从左到右输出结果。我们提出了一种外部存储器,可以将两个方向的输出分布相结合。在这个模型中,从左至右的译码器是“主解码器”,而从右至左的译码器则是“辅助解码器”,为主译码器提供补充。外部存储器是一种可读/可写型张量(tensor),可以存储“辅助解码器”生成的翻译隐状态。当“主解码器”生成一个预测时可以从存储的数据中检索到辅助解码器输出的结果。实验结果表明,双向解码器模型可以提高传统神经网络机器翻译并且在汉到泰的数据集上获得了最好的结果。分析结果发现,这个模型可以提高中、短长度句子的翻译质量。  实验结果表明:联合双重模型和双向解码器都显著提高了翻译效果。我们对翻译结果进行分析,发现大部分的翻译结果非常流畅。  根据我们的经验,神经网络翻译还可以通过以下三个方面完善:  1.降低问题的复杂度。数据空白越少,结果越理想。鉴于此,单词到单词的翻译比单词到字符的翻译简单。此外,有用的特征越多,模型的收敛速度越快;  2.提高模型的能力:不同的网络结构解决不同类型的问题;  3.完善最优化技术:神经网络翻译是一个高度非凸问题,因此只有强大的优化方法才能最佳的模型。  本文主要研究神经网络模型,没有涉及语言特征。我们认为,翻译过程中,量词、日期-时间词等语法问题可以通过规则解决。人名、地名的翻译也需要符合真实场景。神经网络机器翻译中涵盖语言知识是未来研究的有趣课题之一。
其他文献
处理器设计离不开软硬件的协同合作。龙芯处理器经过不断的发展,目前的处理器已经具有先进的结构设计。但是随着多媒体应用的逐步扩展,SIMD计算模式已经从游戏机器和DSP机器扩
计算机已经广泛地应用于航空、航天、武器装备、工业控制、交通、金融和医疗等领域,这些系统越来越多地使用软件进行控制,软件是否正确运行已经关系到人的生命安危,软件失效
根系是植物从土壤中获取养分和水分的重要器官,根系的生长分布状况直接影响植物吸收水分和养分的能力。长期以来缺乏直接从土壤中获取根系原位形态参数的无损检测分析方法成了
工作流是20世纪90年代发展起来的一种反映业务流程计算机化的模型,是为了在先进计算机环境支持下实现经营过程集成与经营过程自动化而建立的可由流程管理系统执行的业务模型
软件缺陷是导致软件质量下降,软件成本升高,开发周期加长等的重要因素。为了帮助程序员更快的查找软件缺陷,研发人员们经过不懈努力,提出了一些行之有效的方法,静态分析就是众多方
军事地理信息系统是数字化战场建设的重点,在动态战场信息管理,作战地域的战场态势变化,作战辅助诀策所产生的空间数据库更新,战术标图、距离、道路等战术计算方面有非常重要的战
与传统的搜索引擎相比,自动问答系统在理论上能够更好地满足用户的检索需求。但是,真实世界中的提问对于自动问答系统来说通常很复杂,主要是由于问答系统缺乏丰富的世界知识
数据库是数据库应用程序的基础与核心。随着数据库规模的迅速增长以及并发访问用户的增加,数据库的性能对数据库应用程序的访问速度起着决定性的作用。因此,对数据库进行优化
学位
软件复用是解决软件危机的一条切实可行的途径。成功的实施软件复用,需要大量的软件构件资源。近年来,Web Services作为一种部署在Internet上的新型的服务构件受到广泛的重视和
现代空天飞行技术和传感器技术的高速发展,为人类提供了极为丰富的遥感图像数据。为了高效地从遥感图像中提取有效信息,利用计算机系统解译遥感图像,即进行遥感图像理解,已成为遥
学位