文档级神经机器翻译研究

来源 :苏州大学 | 被引量 : 1次 | 上传用户:smailfish2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经机器翻译(NMT)系统通常利用大量的双语平行语料来进行训练,然后采用逐句的方式单独对每一句话进行翻译。然而,在篇章中,多个句子之间通常有各种连接和依赖关系,进而形成一个意义完整的文档。忽略这样的句子连接和依赖关系,可能使得句子的翻译模糊或者与邻近句子的翻译不一致,为连贯一致的源文本产生不连贯的目标文本。最近的研究发现,当NMT翻译长句时翻译质量显著下降。而从某个角度来看,复杂的长句相当于短的篇章,所以NMT处理这样的长句时性能下降明显。鉴于NMT存在上述缺陷,本文开展了文档级神经机器翻译模型的研究。本文主要工作包括:(1)汉语的长句子有时翻译为英语的篇章,随着句子长度增加,大多数NMT系统翻译质量呈现下降趋。在本文中我们提出了自动长句分割模型来处理这个问题,分割模型包含两个子模型:切分模型和重新排序模型。使用该方法来检测句子中的最佳分割点序列,将长句分割为多个子句。NMT系统对每个子句进行翻译,然后将翻译后的子句译文直接连接起来,得到最终的译文。在NIST中英翻译任务上,和基准的NMT相比,我们的分割方法在翻译长句方面取得了实质性的提升。(2)NMT系统一次翻译一个句子,忽略了相邻句子间的关系。我们期望使用同一文档中相邻句子的信息来帮助NMT翻译当前语句,因此我们提出了一个句间门控模型。它使用相同的编码器对两个相邻的句子进行编码,并控制从前一个句子到NMT解码器的信息量。通过这种方式,句间门控模型可以捕捉句子之间的关系并使用捕获的信息来帮助文档级别的神经机器翻译。在NIST中英翻译任务中,我们的实验结果表明所提出的句间门控模型实现了翻译质量的显著提升。(3)NMT系统以传统的逐句方式翻译文本,忽略了篇章提供的文档上下文信息,如句子间的联系和依赖关系,文档主题信息等。为了解决这个问题,我们提出了一种基于缓存的文档级神经机器翻译方法。该方法利用缓存模型捕获最近翻译的句子和整个文档中的上下文信息,进而帮助翻译系统翻译文档。特别地,我们探索了两种类型的缓存:一个动态缓存,它存储来自前面句子的最佳翻译假设的单词;一个主题缓存,它维护一组与目标文本语义相关的目标端主题词。在此基础上,我们构建了一个新的基于缓存的神经模型,将缓存模型融入神经机器翻译系统。在NIST中英翻译任务中,提出的缓存模型显著的提升了NMT系统的译文质量以及一致性。
其他文献
在朋友家串门的时候,朋友的儿子说:"爸爸,今天我们班竞选班长了。我的票数最多,××票数还没超过半数,但是老师却利用权威,让他当了班长,我特别气愤。"朋友是一位家庭教
我们把称谓名词分为亲属称谓名词、社会称谓名词和认知称谓名词。认知称谓名词经过明显的隐喻或转喻思维过程,多用于背称。统计数据表明,北京话认知称谓名词的特点是总量较大
本文进行了8根方形截面钢管高强混凝土单向压弯构件的试验研究,研究构件在不同长细比、偏心率和含钢率下的力学性能,长细比取25.4、50.8和71.6三种,偏心率在0.140~0.288之间变
P2P网络借贷起源于2005年,之后一直以较快速度发展着。网贷之家相关信息表明,截至2017年底,P2P网贷行业贷款余额为12245.87亿元,相比2016年底上升了50%。2017年P2P网贷行业成
本文在前人介绍的基础上对Lakoff和Johnson的体验哲学从什么是体验和体验心智,体验哲学的研究背景,体验哲学的神经生物基础,认知科学与哲学的联系,隐喻在哲学思维中的作用,体
背景与目的:研究幽门螺杆菌L型(Hp-L型)感染与胃癌浸润和转移的关系。材料与方法:应用革兰染色、透射电镜和免疫组化SP法检测130例胃癌患者手术切除的肿瘤组织标本和50例癌旁(正常
通过近几年的试验示范,苏州地区初步集成了适合本地区的水稻螟虫绿色防控技术:优先采用适期播栽、无纺布覆盖育秧、优化布局集中育秧、灌水浸田灭蛹、机械化秸秆还田等农业和
半城市化地区已成为城市化研究的热点,但其生活垃圾管理问题常被忽视.以典型半城市化地区——厦门市集美区为例,通过问卷调查与实地采样两种方法,分析不同住区家庭生活垃圾产
生态环保公示语是人类文明和社会进步的产物,具有极强的宣传效果和社会意义。针对此类公示语的英译问题,依据莱思和诺德的文本类型理论,探讨汉语生态环保公示语的文本功能,提
随着动物保护趋势的发展和动物保护理念的更新,动物保护的不同思想范畴中关于动物保护的方式有所不同,通过关于动物保护和动物福利的厘清,认识动物保护的适时选择就是保护动