基于XLM非监督翻译模型的改进研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:longlaotest1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的神经机器翻译需要大量的平行语料,大规模的语料库对于小语种语言来说是不现实的。相对难以获取的平行语料,单语语料则容易很多。基于此,有人提出了完全使用单语语料训练的非监督神经机器翻译模型,其中最新的研究成果是Facebook AI的研究者提出的XLM模型。在实验中,我们成功的复现了 XLM模型在英语-法语上的成绩,但是,我们发现该模型在英语-中文无法正常工作。经实验验证,该模型在远距离语言如英文-中文,中文-泰文等语言之间均无法正常工作。分析研究后发现,出现问题的原因是模型退化,更进一步,模型在回翻译阶段由于噪音较多,导致无法生成有效输出。基于这个结论,我们提出了三种方法解决此问题:(1)在模型训练时增加平行语料,是模型从完全非监督训练转化为半监督式训练;(2)在回翻译阶段生成伪平行句对时扩大候选词范围,从原来的一个候选词扩大至K个候选词,我们称之为top-K方法;(3)使用双语词典,纠正回翻译阶段生成伪平行句对中的无效单词。在实验中,我们验证了上述三种方法均能有效改善翻译性能,其中,方法1是最有效的。同时,我们组合了上述三种方法进行实验,发现组合方法1与方法3效果最为明显,在中文-英文的翻译中最高BLEU值由0.59 提升至 15.87。在改进方法中使用了双语词典,传统的fast_align生成词典需要使用大量平行语料,这违背了低资源神经机器翻译的初衷。因此我们研究了基于图模型Graphlet的方法仅使用单语语料来获取双语词典。Graphlet最早用于蛋白质图结构的对齐。在我们提出的方法中,考虑将一种语言的句子以单词为单位,将单词作为图节点,句子中单词的前后关系作为图节点间的边,重复的边的数量作为权值。这样,两种语言的语料库各自独立的生成一个图,计算两个图中任意两个节点间的相似度,各节点相似度最高的我们便认为两个词具有对应关系,互为翻译。所有节点计算完毕即可生成双语词典。通过前述方法3使用该词典进行翻译训练,在中文-英文的翻译中最高BLEU值为14.97。
其他文献
极化码(Polar Codes)是第一个被证明可以达到任意二进制输入离散无记忆信道(Binary-input discrete memoryless channels,B-DMC)对称容量的一种新的信道编码方案。因为它具有递归的编码结构和良好的译码效果而受到人们的广泛关注。Polar码是基于信道极化现象构造的一种信道编码方案,关于Polar码的研究主要集中在构造和译码两个方面。Polar码的构造即
文本主题聚类中,文本表示模型对信息检索、问答系统等的研究十分重要。在传统向量空间模型(VSM)的基础上,共现潜在语义向量空间模型(CLSVSM)运用共现分析理论提取、挖掘了潜在的语义信息,使文本聚类效果得到提高,但仍未充分提取。针对此问题,欲在CLSVSM的基础上,利用词语语义相似度对文本表示模型进行进一步的改进,以挖掘更多的潜在语义信息。这也就意味着提取潜在语义信息的核心步骤——词语语义相似性度
本论文基于密度泛函理论,系统地研究了杂原子掺杂缺陷石墨烯作为氧还原催化剂的反应机理。得到主要结论如下:(1)研究了氮硫共掺杂碳缺陷石墨烯在酸性介质中的催化活性,包括其活性位点,反应途径以及自由能曲线。计算发现了六种O_2吸附构型,并且吸附位点均为与掺杂剂相邻的碳原子。然而,它们在氮的邻位碳上是物理吸附,不太可能发生ORR过程。但是,当吸附位点在硫邻位碳上时,发现催化剂活性与吸附能相关:当(化学)吸
随着卫星通信技术的不断演进,得益于广泛的覆盖能力以及受地面因素影响较小的特性,可以有效弥补地面网络的不足。但是,由于卫星组网技术受限于拓扑高动态变化、长时延等问题,技术演进稍落后于地面网络。当前随着5G网络商用的逐步推进,通信业务面临多样化场景和更高的性能需求,更需要卫星网络与地面网络实现资源的高效利用和管理,提供有力的技术支撑。首先,本文针对当前天地异构网络管理架构僵化问题,提出天地异构网络组网
目的应用基于GC-MS(气相色谱质谱联用)技术的代谢组学方法,研究慢性粒细胞白血病患者血浆中内源性代谢物的变化,寻找与疾病相关的潜在标志物,并初步探讨其涉及的相关代谢通路
DVL1是Wnt信号通路中的一个重要蛋白,与胚胎生长和形态发育、肿瘤发生、社会行为和感觉门控等有关。p53是一个重要的肿瘤抑制因子,许多肿瘤的发生都与p53的表达异常或突变有
扫频光源在自然科学研究和日常生活中有着重要应用。本论文介绍了几种实现扫频光源的典型方案,并详细介绍了基于色散调谐的扫频光源的原理和实现方法,从各个方面分析了影响色
随着互联网带宽的大幅增加和各种移动设备的激增,Web2.0技术下图像数据已经出现爆炸性的生成,发布和传播,成为当今大数据不可或缺的一部分。然而互联网上的部分图像是无标记的,为了更有效地存储、管理、检索和利用这些数据,近年来,研究人员致力于用完整的自然语句自动描述图像的内容,即为图像字幕生成。然而,图像字幕生成是一个非常具有挑战性的任务,它不仅需要利用模型去捕获图像中呈现的对象或者场景,表达图像中对
许多反应—扩散方程被用来模拟流行病的传播动力学。在数学流行病学中,行波解可以用来描述流行病以恒定速度在空间传播的状态。因此,研究扩散型流行病模型的行波解具有重要意义。本文研究两个扩散型时滞流行病模型的行波解。在一定条件下,讨论了这两个模型非平凡行波解的存在性问题。第一章,介绍研究背景和国内外研究现状。同时给出本文的研究内容和创新之处。第二章,研究一个带时空延迟的非局部扩散型流行病模型行波解的存在性
坏画一词由玛西亚·塔克在1978年纽约新当代美术馆举办同名展览中提出,将坏画定义为突破艺术形式与规范的绘画作品,坏画展览的诞生引领了上世纪八十年代西方具象绘画的回归。本文以1978年纽约新当代博物馆的坏画展览作为研究对象,探究坏画审丑现象产生的原因,并分析其审丑特点在作品中的表现,结合艺术创作分析坏画审丑现象的精神内涵。坏画审丑思维的产生是现代多元化生活的缩影,多维度的知识信息推动了艺术的创新发展