神经网络机器翻译干预技术研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:landgale527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今经济和贸易全球化快速发展的时代背景下,各国之间的信息互通量级巨大,机器翻译(Machine Translation,MT)在这个过程中扮演着重要角色。各类机器翻译系统都需要具备利用外部词典快速提升专业领域翻译准确率的能力,如何让机器翻译系统产生的译文能够满足提前给定的词或短语的翻译(即“机器翻译的干预机制”),如何更好的通过干预机制提升翻译质量,具有重要的研究价值。神经网络机器翻译(N eural Machine Translation,NMT)是一个端到端模型,近年来已经成为主流的机器翻译方法。其端到端的翻译过程的“黑盒”特性,使其在推断阶段很难进行直接干预,因此神经网络机器翻译的干预技术近几年越来越受到企业界和学界关注,其研究主要分为两种思路:基于标签占位的数据增强方法和基于解码过程约束的强制生成方法。已有研究方法的主要缺陷是在保证干预译文生效的同时,损失了整个句子的翻译质量。与已有研究方法不同,本文提出的方法既能保证干预译文生效,又能最大程度避免干预过程对整句翻译质量的负向影响。本文研究内容分为以下三个部分:(1)基于原文替换和译文拷贝的机器翻译干预方法首次提出了一种基于语码转换(code-switching)的数据增强方法,通过对神经网络机器翻译系统的双语训练数据进行数据增强,得到一种特殊的双语平行句对:源端句子中的一部分词或短语替换为对应的目标端词,目标端句子保持不变。这些增强语料可以使模型学会在翻译的同时将源端句子中出现的目标端词拷贝至最终的翻译结果。另外,通过利用指针网络(pointer network)和词嵌入表示共享(shared embedding),进一步强化了模型的拷贝能力。解码时,通过前处理步骤将翻译原文中需要干预的词或短语替换为指定的干预译文,由于原文句子中的译文词保留了待干预词的语义信息,因此整体翻译质量不会由于原始句子语义缺失而受损。实验表明,这个方法不仅可以保证干预生效,还能显著缓解传统标签占位的干预方法导致的翻译质量受损问题。干预后的翻译质量既优于不干预,也优于传统的两类干预方法。(2)基于词对齐优化和解码过程约束的干预方法提出一种通过优化Transformer词对齐进而提升Transformer模型干预效果的方法。首先为原始的基于多头注意力机制(multi-head attention)的神经网络机器翻译模型的解码器端附加一个额外的注意力头(attention head),然后利用外部词对齐信息作为监督信号,训练这个专用的注意力头,使其对源端词的注意力分布(attention weights)可以更好的反映当前待生成的译文词和原文词的对应关系。这种增加一个额外的注意力头的方式不影响原有的翻译模型的参数,因此不影响原本的翻译质量。解码时,在目标端生成每个译文词时,如果当前译文词对齐到源端待干预词,则通过改变当前步骤的目标端词表的概率分布达到约束解码的效果,使模型输出提前指定的干预译文。实验结果表明,对词对齐的优化可以显著提升基于解码过程约束的干预方法的效果,翻译质量和干预生效率和词对齐准确率呈显著的正相关性。(3)基于预训练提升词对齐并指导干预的方法提出了一种基于跨语言预训练模型和训练目标约束来提升Transformer词对齐进而提升干预效果的方法。与已有的基于有监督的方法不同,基于跨语言预训练模型的方法不依赖外部词对齐信息作为监督信号,而是从跨语言预训练模型中学习不同语言间的词义表示,拉近不同语言间语义相同的词的表示,并初始化Transformer的一部分参数。另外,利用词对齐集中度作为额外特征,改进原有训练过程的损失函数,更进一步提升解码时产生的词对齐的准确率。该方法用一个专门的子网络学习词对齐信息,既不影响模型原本的翻译效果,又能更好的针对词对齐任务进行训练。实验结果表明,该方法能够显著提升Transformer的词对齐准确率,并且首次基于无监督的方式获得了超过基于离散建模的词对齐方法的效果。另外,本章实验证明了更好的Transformer词对齐可以获得更好的机器翻译干预的效果。总体上,本文的研究工作包括了两种有效的机器翻译干预的方法,分别是基于语码转换的数据增强的方式,和基于词对齐指导解码过程约束的方式。另外,本文还提出了两种提升Transformer词对齐准确率的方法,以提升基于解码过程约束的干预方法的效果。
其他文献
第一部分CLEC5A对心肌梗死小鼠的影响目的:本部分研究探讨CLEC5A对小鼠心肌梗死(myocardial infarction,MI)的影响。方法:将 C57BL/6 小鼠随机分为 4 组:Sham、MI、MI+Ad-NC、MI+Ad-sh-CLEC5A,每组 6 只。将每只小鼠麻醉固定后,打开胸腔,结扎冠状动脉左前降支。Sham组只开胸不结扎。MI+Ad-NC、MI+Ad-sh-CLEC5A
学位
第一部分大鼠脑出血后脑组织中BMAL1蛋白表达的变化目的探讨脑出血(Intracerebral hemorrhage,ICH)模型大鼠脑组织中脑和肌肉类Arnt样蛋白1(Brain and muscle Arnt-like protein 1,BMAL1)蛋白昼夜表达变化以及脑出血后不同时间点的表达变化。方法1.实验设计和分组:(1)将健康雄性Sprague-Dawley(SD)大鼠随机分为Sha
学位
随着人工智能时代的来临,柔性电子皮肤和可穿戴设备引起了人们的广泛关注。压电聚合物因既具有柔性又具有良好的压电性而成为制备柔性压电传感器的关键材料之一。然而,目前压电聚合物的综合性能尚无法满足制备柔性电子皮肤和可穿戴设备的要求。发展压电聚合物复合材料的高效制备方法,深入理解压电聚合物复合材料的构效关系,有效提升它们的综合性能已经成为化学和物理领域的重要研究课题。本文主要利用分子间氢键相互作用制备了两
学位
第一部分阿霉素抑制骨髓间充质干细胞增殖及成骨分化机制的研究目的:临床证据表明,阿霉素(DOX)作为一种化疗药物,可引起癌症患者严重的骨骼损伤。本研究采用不同浓度的阿霉素(0~50nM)处理骨髓间充质干细胞,阐明阿霉素对骨髓间充质干细胞增殖及成骨分化的影响,并探讨阿霉素对其成骨能力影响的分子机制。方法:在无菌条件下收集SD大鼠(6~8周)股骨中的全骨髓细胞,采用全贴壁法分离纯化骨髓间充质干细胞,并对
学位
目的:骨癌痛(bone cancer pain,BCP)是恶性肿瘤转移至骨骼后引起的慢性疼痛,是肿瘤晚期患者最常见的临床症状之一。BCP的发生机制目前尚未阐明,在临床上缺乏有效的治疗手段。近年来的研究表明,长链非编码RNA(long noncoding RNA,lncRNA)可以发挥多种重要的生物学功能。本研究旨在探讨BCP大鼠脊髓中lncRNANONRATT009773.2在疼痛产生中的作用和分
学位
第一部分:十字形皮瓣在先天性并指畸形中的应用第一节指蹼的测量和重建指蹼的十字形皮瓣的设计目的:通过测量正常人群手指和指蹼相关数据,创新性设计掌背十字形皮瓣用于并指分指后指蹼重建。方法:随机抽取小儿骨科住院14岁以下患儿,排除患手。采用刻度软尺在指蹼最远端水平测量健手示、环、小指近节直径L1,测量相邻掌骨头顶点距离L2,再分别测量指蹼最远端至掌骨头顶点连线的皮肤距离L3。测量结果应用SPSS19.0
学位
视神经脊髓炎谱系疾病(neuromyelitis optica spectrum disorders,NMOSD)是一组以视神经和脊髓受累为主的中枢神经系统炎症性脱髓鞘疾病,平均年复发率较高,疾病的反复复发和累积损害常可导致永久性失明或肢体瘫痪。缓解期的序贯治疗是减少NMOSD复发及阻止残疾进展的主要方法。利妥昔单抗(rituximab,RTX)通过删除外周循环中的B细胞可减少NMOSD的复发。诸
学位
钛基材料是最常用的生物医用金属材料,但钛材料具有生物惰性,植入骨组织后常导致钛-骨界面成骨能力弱,组织纤维化,尤其是疏松的骨组织,钛植入物易发生无菌性松动等。如何将钛材料惰性表面改性成生物活性表面,促钛植入物骨整合是生物材料研究的热点。贻贝仿生多肽改性钛材料表面是一种简便、高效的方法,通过一步浸泡法即可将携带生物活性大分子的仿生多肽接枝到钛材料表面,形成生物活性表面,发挥生物活性分子的促骨整合作用
学位
依存句法分析通过依存树来刻画输入句子中词语之间存在的语法和语义信息。依存树是由输入词组成的树状结构,其中从核心词到修饰词的有向边为依存弧,弧上的标签为依存关系类型。依存句法分析作为一项自然语言处理的基础任务,由于其表现形式简单、易于理解,受到了许多研究者的关注。依存句法分析的结果不仅可以促进自然语言处理任务的发展,如分词、语义角色标注等;也可以为其他人工智能任务提供支撑,如机器翻译、信息检索等。近
学位
概念分解作为一类有效的、解释性较好的表示学习方法,在机器学习与数据挖掘领域引起了广泛的关注,但经典的概念分解算法普遍存在如下问题:a)直接基于原始数据进行分解,导致对噪声敏感;b)缺乏动态的自适应局部保持机制,导致近邻数选择难;c)无监督的学习模式无法利用标签信息,导致特征鉴别性不足;d)传统模型为单层分解结构,导致无法挖掘隐藏的深层次特征。鉴于以上不足,本文重点围绕“鲁棒特征学习、自适应权重构建
学位