基于深度学习的神经机器翻译技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:mmmmmmmmmmmmmmmmmmmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
翻译服务的重要性随着经济全球化的加速,日益显著。机器翻译相较于人工翻译,成本更低,速度更快,也因此更适应当今时代。神经机器翻译技术使用深度学习方法在平行语料上进行训练并获得翻译模型,已经成为当前主流的机器翻译方法。神经机器翻译快速发展的过程中,一直面临着较多挑战。在诸多挑战中,本文分别在数据稀疏和模型改进两个方面进行了研究工作,主要包括以下内容:1)提出了一种场景通用的数据增强方法。本文分析了富资源场景和低资源场景下对于平行语料多样性与高质量的困境,结合低频词替换方法和反向翻译方法实现互补。本方法将反向翻译方法生成的伪平行语料通过低频词替换进一步增强,并在低资源场景时额外添加了语法纠错模块以减少语法错误。实验数据按照10:1的比例划分了富资源和低资源场景,从骨干网络以及相关工作两方面选择了模型与方法进行了对比实验。实验结果验证了本文提出的数据增强方法同时适用于富资源与低资源场景,可以有效地增强训练语料从而提升翻译任务的表现。2)提出了基于有向无环图的多粒度特征融合方法。不同于单一粒度输入,本文利用有向无环图融合了字符粒度和MSR,PKU和CTB三种分词粒度作为输入并得到了位置表示。为了使多粒度特征能够输入Transformer模型,本文改进Transformer模型,提出了多粒度位置编码(MGPE)和多粒度自注意力(MGSA)。多粒度特征输入与单一粒度输入之间的对比实验表明多粒度特征输入能有效提升模型在翻译任务上的表现。3)在多粒度特征作为输入的基础上,引入了动态词向量改进了词嵌入模块。一方面,考虑到现有神经机器翻译模型的文本特征化方法均使用静态词向量,无法有效表征一词多义的情况,另一方面,考虑到多粒度特征输入要求模型有更强的编码能力。本文使用ELMo模型获取动态词向量嵌入。对比实验表明,动态词向量嵌入相比静态词向量嵌入方法在WMT和NIST翻译任务上平均高出1.10和1.39个BLEU值,验证了动态词向量嵌入能有效提升模型在翻译任务上的表现。
其他文献
图像分类作为计算机视觉领域的基石,在图像、视频数据爆炸式发展的今天显得尤为重要,并具有巨大的现实意义。深度学习在图像分类领域不断发展,做出了许多巨大突破,与此同时如何再次提升模型准确率、开发模型潜能以适应有限的硬件资源成为了热点问题之一。知识蒸馏作为知识迁移的具体实现手段,在模型压缩领域发挥了巨大作用。本文运用知识蒸馏的自蒸馏思想,优化了网络模型的训练策略,提出了基于训练过程的并联知识迁移训练架构
CT技术作为患者身体检查,诊断疾病的有效手段,已经在临床广泛使用。但CT检查过程中产生的射线对人体带来的伤害却也不能忽视。采用有效的手段可以减少CT检查过程中产生的射线量,比如降低管电压,降低管电流,降低曝光时间,减少采样角度等。但是降低辐射剂量,在CT成像过程中会产生CT图像上不属于组织结构影像的伪影,使图像细节模糊,图像清晰度下降,甚至会影响医生的诊断结果,给患者带来更为严重的危害。近年来,深
多智能体系统是由一群具备感知、通信、计算和执行能力的智能体经过互相关联而形成的一个网络系统。在多智能体系统中,包围控制是指智能体依据所获得的传感器数据,对目标或者目标区域进行环绕运动的一种控制方式,可应用于对目标的搜索、救援、探测、监测等场景下。本文研究了基于方向信息的多智能体包围控制问题。其中,基于方向信息是指智能体所搭载的传感器仅能测得自身和目标之间的相对方向,无法测得自身与目标之间的距离。基
近年来,随着计算机软件及硬件的飞速发展,深度学习得以在计算机视觉、自然语言处理、无人驾驶等领域崭露头角。卷积神经网络作为深度学习中最重要的模型之一,在图像分类、目标检测等方向上取得了优异的成绩,但也伴随着诸如过拟合、时间内存开销较大等需要解决的问题。作为最具代表性的正则化方法之一,Dropout方法通过屏蔽部分神经元参与训练的方式有效地抑制了过拟合现象的发生。但在卷积神经网络上,普通的Dropou
随着科技的发展,碳化硅高温压力传感器被广泛应用在石油钻井、化工冶金和航空航天等领域。目前国内外主要致力于传感器结构设计优化及失效分析和欧姆接触结构设计及失效分析等方面进行研究,对碳化硅高温压力传感器的应力模型研究报道较少。在广泛使用高温压力传感器的航空航天领域,传感器发生故障可能导致巨大的财产损失甚至危及人的生命安全。因此,研究碳化硅高温压力传感器结构在不同应力,尤其是综合应力下的应力模型,定量描
合成孔径雷达干涉测量技术(Synthetic Aperture Radar Interferometry,简称InSAR)是一门融合了 SAR成像和干涉测量的新技术,并且在三维重建和形变监测方面取得了重大成就。由于InSAR系统无法直接通过干涉相位获取准确的地球物理量,相位解缠作为InSAR技术流程中的一个重要环节,能够通过缠绕相位还原真实相位,从而使整幅图像能够提供有意义的信息。一方面,深度学习
由于单架四旋翼存在飞行距离短,载重有限等问题,因此在一定程度上限制了某些场景下的应用。多四旋翼协同控制能够很好的解决单架四旋翼存在的不足,如何协调多架四旋翼的协同控制成为研究的热点。首先,介绍了四旋翼飞行器的建模过程。第一步对四旋翼飞行器的组成和结构进行简介,然后再建立相关坐标系和四旋翼飞行器的数学模型,简要介绍模型预测控制,通过对模型进行分析,将模型解耦并线性化成平移和转动动力学的线性时变状态空
近些年来,随着机器学习和深度神经网络两个领域的迅速发展以及智能设备的普及,人脸表情识别技术正在经历前所未有的发展,基于深度卷积神经网络的人脸表情识别算法取得了长足的进步,并且已经超越了传统的人脸表情识别算法。同时,5G时代的到来以及大规模普及的软硬件基础条件也已具备,基于这种方法的市场与应用前景十分广阔。然而深度卷积神经网络存在着自身的局限,随着网络结构变得愈加复杂,训练参数量也与之增加,使用网络
在过去的几十年中,科技的进步推动着全球经济快速发展,也使得人民生活质量稳步提高,但是伴随而来的是越来越高的疾病入院率。呼吸系统疾病具有易感染、易复发、治疗周期长等特点,已经严重地威胁到了人们的身体健康,给全世界造成了沉重的负担。随着计算机科学技术的发展与大数据和人工智能的广泛应用,通过数据挖掘的方法对呼吸系统疾病的风险进行分析,既有助于对该疾病更为全面地认识和了解,也能够提高医疗服务体系的质量。本
这几年来,计算机视觉相关技术飞速发展。人体姿态估计作为研究人类运动的基本方法,成为众多学者们研究的热点。其主要任务是在图像中检测出人体关节和关键部位的坐标位置,从而得到人体局部或全部的肢体信息,以此来判断人体的行为。随着深度学习相关技术的快速迭代,基于卷积神经网络的人体姿态估计研究也取得了巨大的进步。基于自动特征提取的的深度学习方式已经能够替代传统的手工特征提取来实现输入端到任务端的点对点优化,当