基于信息增强的低资源神经机器翻译方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:minghao1122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于深度学习的神经机器翻译方法获得迅速发展,目前已取代传统的统计机器翻译成为主流的翻译方法。神经机器翻译模型大多采用数据驱动的端到端架构,需基于大规模平行语料开展模型训练。而在低资源场景下,平行语料资源匮乏,可利用信息严重受限,翻译模型表现不佳。因此,挖掘其他种类的数据及知识,增强模型可用的信息,不仅有助于突破平行语料资源束缚,更可以利用信息的多样性来提升机器翻译模型的泛化能力。本文针对低资源神经机器翻译中信息缺乏问题展开探究,重点研究了参考翻译信息、回译信息、翻译记忆信息、句法结构信息的增强方法,对增强及应用过程中所面临的一些问题进行了针对性解决。论文主要研究工作如下:(1)提出了基于参考翻译信息增强的低资源神经机器翻译方法。针对低资源场景下参考翻译信息缺乏问题,提出一种双层编解码器结构的翻译模型。模型采用二次翻译形式,将首次翻译产生的译文作为参考翻译,用于指导第二次翻译的编码过程。为了在利用参考翻译中有效信息的同时减少噪声干扰,构建了重要性权重模型,利用该模型将参考翻译转化为重要性权重矩阵。矩阵体现的是源语言句子中不同单词对译文生成的不同贡献,将其融入到第二次编码过程中可以引导更优译文的生成。多个数据集上的翻译结果表明,所提方法能够实现对参考翻译中有效信息的精准利用,进而改善低资源神经机器翻译性能。(2)提出了基于回译信息增强的低资源神经机器翻译方法。回译方法利用单语语料实现数据增强,可以显著提升低资源场景下的可用信息规模、缓解数据稀疏困境,但同时也存在基础翻译模型训练不充分和由此导致的噪声引入问题。针对该问题,提出了一种利用基于回译信息增强的低资源神经机器翻译方法。一方面改进注意力机制,使模型能够充分利用神经网络各层特征信息,训练得到更优的基础翻译模型。另一方面,引入变分信息瓶颈到基础翻译模型中,利用变分信息瓶颈方法的去噪特性,在实现模型的可用信息增强的同时实现噪声消减,优化翻译质量。实验结果表明,所提方法能够在增强回译信息的同时有效减少回译信息中的噪声,是对回译方法的成功改进。(3)提出了基于翻译记忆信息增强的低资源神经机器翻译方法。自翻译记忆中检索原型序列(模板)并将其用于指导翻译输出的概率分布,已被证明是有效的翻译性能提升手段。低资源场景下,翻译记忆数量不足导致基于翻译记忆的方法效果不佳。针对该问题,提出基于翻译记忆信息增强的低资源神经机器翻译方法,将传统检索方法和所提出的伪原型序列生成方法相结合,以多策略方式生成高质量的伪原型序列。除对传统的编码器-解码器框架进行了改进以容纳原型输入之外,所提方法还使用改进的损失函数削弱低质量原型序列对模型的影响。实验结果表明,利用多种策略进行原型生成可以显著提升对翻译记忆的利用效率,是将原型方法应用到低资源场景的有效途径。(4)提出了基于句法结构信息增强的低资源神经机器翻译方法。融入句法结构信息已被证明可以有效提升机器翻译性能,但在低资源场景下,融入短语结构和依存关系等传统句法结构信息时会带来噪声引入和复杂度不匹配问题。针对此问题,本文探究句法结构差异这种更为适合低资源场景的句法结构,提出了句法结构差异的识别、表征和融入方法。通过对句法结构差异的有效建模和融入,有效地解决了传统句法结构信息利用方法所引起的噪声引入和复杂度不匹配问题。实验结果显示,相比传统句法结构,句法结构差异更为精简,更加符合低资源场景下的数据特点。将其融入翻译模型能够有效地减少噪声引入、丰富训练数据的形态并显著提升翻译性能。本文以低资源神经机器翻译为研究对象,探讨了几类重要信息:参考翻译信息、回译信息、翻译记忆信息和句法结构信息对翻译的作用,分别利用不同的数据与知识对上述信息进行增强。有别于传统的翻译信息增强方法,本文基于不同数据和知识的特点,设计了针对性的信息增强方法,解决了信息增强与利用过程中所存在的一些问题。本文研究对于拓宽低资源神经机器翻译研究方法范畴、实现实用化翻译模型具有积极的作用。
其他文献
燃料电池具有能量密度高、操作简单及环境友好等优点,被认为是21世纪解决日益严重的能源短缺和环境污染问题,并实现“碳达峰”、“碳中和”的理想方案。但是,燃料电池严重依赖价格昂贵的Pt基催化剂促进阴极氧还原反应(ORR),成为其广泛应用需克服的难题。因此,开发高性能、低成本的非贵金属ORR催化剂,摆脱对Pt基催化剂的依赖,是推进燃料电池商业化进程的关键。在各种非贵金属催化剂中,过渡金属-氮-碳(M-N
学位
三阴性乳腺癌(Triple Negative Breast Cancer,TNBC)由于其发病率、复发率及恶性程度高的特点成为当今女性健康的巨大威胁,然而,目前仍缺乏有效的靶向治疗手段。此前,线粒体中蛋白在多项研究中被发现具有成为肿瘤治疗靶点的潜能,其中,线粒体解偶联蛋白1(Mitochondrial Uncoupling Protein 1,UCP1)被报道具有乳腺癌的调控潜能,但具体调控机制还
学位
禽致病性大肠杆菌(Avian Pathogenic Escherichia coli,APEC)是家禽养殖中主要的致病菌,APEC作为肠道外病原菌具有广泛的宿主谱,不仅严重危害养禽业,还对人类健康造成潜在威胁。APEC感染宿主时,生物被膜可抵抗高浓度的抗生素杀伤从而实现其在宿主中持续定殖。此外,当细菌驻留在生物被膜中,会使得细菌的病原相关分子模式较少暴露,有利于其逃脱宿主模式识别受体识别,实现免疫
学位
农田重金属污染严重威胁人类健康和生态系统安全,污染农田的修复治理已成为世界各国面临的主要环境挑战之一。生物炭对重金属污染土壤修复具有良好环境效益而且成本低,被广泛应用于重金属污染农田修复中,这对于生物质废弃物的回收利用和环境修复是一种双赢的策略。由于水热碳化制备生物炭不受原料水分含量的影响、能源需求较低,因此,在高水分生物质废弃物利用中表现出一定的优势。而且水热生物炭比热解生物炭具有更好的含氧官能
学位
植食性害虫的发生对全球作物产量造成严重威胁,产生巨大经济损失。抗虫作物育种和应用是增加作物产量、提升作物品质和减少农药依赖的一个重要途径,而借助基因工程手段通过基因编辑,创制抗虫种质为抗虫育种提供新的解决方案,但目前抗虫基因匮乏,在很大程度上限制了基因工程技术应用,成为植物抗虫育种工作的瓶颈。因此,挖掘植物抗虫基因,开发新型绿色防治手段显得尤为重要。本文以拟南芥为研究材料,获得了一个参与植物抗作物
学位
研究了对羟基苯甲酸法制备对羟基苯甲腈的合成工艺,首先以对羟基苯甲酸和甲醇为起始原料合成了对羟基苯甲酸甲酯,然后经氨化反应制备了对羟基苯甲酰胺,最后经光气化脱水反应制备得到目标产物对羟基苯甲腈。并对各步反应条件进行了详细研究,确定了最佳反应条件。在优化的条件下,HPLC产品含量:97.5%,总收率:81.2%。所用工艺条件相对温和、原料更加简单易得、便于生产操作、适合工业化。
期刊
目的 分析盐酸氟桂利嗪胶囊(商品名:西比灵)联合地巴唑治疗血管神经性头痛的临床疗效。方法 60例血管神经性头痛患者,以抽签法分为观察组与对照组,各30例。对照组采取西比灵治疗,观察组在对照组基础上加用地巴唑治疗。比较两组患者治疗效果、复发率、头痛和伴随症状改善时间、不良反应发生率及治疗前后血流动力学指标。结果 观察组患者治疗总有效率93.33%明显高于对照组的73.33%,治疗后6个月内复发率3.
期刊
清洁、高效回收有色金属生产及消费过程产生的合金废料意义重大。真空冶金分离合金、提纯粗金属具有流程短、无污染、金属回收率高等优点。现有合金真空分离基础研究主要集中在热力学方面,动力学研究较少。本文以铅基二元及三元合金为对象,开展了铅基合金真空蒸馏分离动力学研究,主要包括:合金组元活度计算、气液相平衡模型计算、合金真空蒸馏分离动力学实验和建模、新建合金真空分离动力学模型应用研究:1、采用分子相互作用体
学位
黄草乌(Aconitum vilmorinianum Kom.)是毛茛科乌头属植物,全世界有乌头属植物350种,主要分布在北半球的温带地区,中国有乌头属植物200余种,作为药物使用的有76种。云南是乌头属植物分布的中心,有资源66种、25个变种和4个变型。黄草乌主产云南,是云南道地的中药材。黄草乌含有滇乌碱、草乌甲素等二萜类生物碱,具有祛风散寒、活血止痛、抗抑肿瘤、除湿解毒等功效,是西南地区云南白
学位
灵长类的早期胚胎发育可分为两个大的阶段,从受精卵到囊胚的着床前阶段和从囊胚到原肠胚的着床后阶段。着床前阶段经历两次谱系分离导致Epiblast(EPI)细胞的出现,EPI细胞未来会发育为胚胎个体。着床是胚胎发育的里程碑,胚胎发育经历了重大变化。尽管体外胚胎延迟培养提供了关于人着床后胚胎发生的自组织特性。然而,着床后的胚胎谱系,尤其是EPI细胞谱系的精确细胞图谱、发育轨迹和分子调控机制仍不清楚。环境
学位