基于语义概念的神经机器翻译方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:Hai123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是利用计算机将一种语言转换为另一种语言的过程,是自然语言处理研究领域的核心任务之一,有非常重要的科学理论研究价值。神经机器翻译(Neural Machine Translation,NMT)因其性能优越已经成为主流的机器翻译方法,也是深度学习在自然语言处理领域最成功的应用之一。神经机器翻译系统的高性能通常依赖于高质量大规模的训练数据和强大的计算资源,属于数据驱动的翻译方法。但是数据驱动的翻译方法,在面向资源稀缺语种的翻译时,会遭遇各种问题。
  为了解决此类问题,促进机器翻译理论的发展,本论文的研究工作以数据和知识双轮驱动为指导思想,重点研究如何在NMT模型中融合语言学知识,以提高NMT系统的翻译性能和翻译质量。一方面,针对NMT系统的集外词和低频词问题,本论文提出了一种在NMT系统中融合语义概念知识的方法。另一方面,针对NMT系统的歧义理解问题,本文还提出了一种面向NMT的融合外部知识库的读取式建模和解码方法。实验结果证明,本文提出的方法可以有效地提高NMT系统的翻译性能。
  本文的创新点和主要研究成果如下:
  (1)提出了一种融合语义概念的“替换-翻译-恢复”的低频词、集外词处理策略。与传统方法相比,该方法从语义层次上对低频词和集外词问题进行建模,提高了低频词和集外词的翻译正确率,有效地改善了低频词和集外词的漏译或错译问题,并设计实现了三种融合语义概念的语义相似度计算方法,提高了语义相似度计算的准确性,进而改善了NMT系统中低频词和集外词的翻译效果。
  (2)提出了一种融合外部知识库的读取式建模和解码方法。该方法基于图注意力机制,动态地将语义知识三元组信息融入神经机器翻译系统中。实验结果表明融入外部语义知识可以提高模型对歧义词的语义区分能力,从而提高翻译性能。
  本论文的主要贡献体现在:实现了语义概念和外部知识库的知识与NMT系统的有机融合,通过方法创新和实验验证,拓展了NMT的相关基础理论。
其他文献
图像分割,是指根据图像的特征,将图像分为目标和背景两大类或将感兴趣的目标提取出来的过程或技术。图像分割是图像处理的必要步骤,是进行图像分析的重要前提。偏微分方程方法的应用是图像分割领域的一个重大的研究进展,这一突破使图像分割技术有了完备的数学理论基础,并且演化曲线的运动也更加灵活。基于偏微分方程的活动轮廓模型一般是通过最小化封闭曲线的能量泛函来寻找目标轮廓边界,并用变分水平集的方法解决这一最小化问
学位
海底地貌为研究大陆板块的运动以及海底自然灾害的发生提供重要的参考,为油气资源勘探提供重要的基础海底地形信息,对海上平台和海底管线的安装铺设有指导性意义。海底地貌单元及其边界识别是海洋科学研究与海洋工程实施的基础和前提。目前,海底地貌单元边界提取主要依靠技术人员手动完成,易受主观判断影响,耗时较长,劳动强度大。为了克服手动提取存在的缺陷,本文研究了海底地貌单元边界搜索算法,主要研究内容包括:(1)基
学位
天然气水合物沉积物颗粒的粒径、黏土含量以及含水合物饱和度显著影响沉积物的电学和声学物理性质。研究复杂沉积物条件下电学和声学联合响应特性、充分利用电学和声学参数信息建立电声联合模型来评价含水合物饱和度,对于天然气水合物储层的精细定量评价具有重要意义。以前期的实验装置为基础,针对测控软件的使用权限、数据安全、错误处理以及反应釜供气管线阻塞等问题进行了改进,实验表明采用将供气管线伸入反应釜内的方法有助于
学位
近年来,随着控制技术的不断提升,工业机械臂系统逐渐代替人力进行工业生产,与此同时,如何对机械臂进行高精度的位置/力跟踪控制也成为了国内外学者重点研究的方向。在机械臂位置/力控制方面,相比于普通的固定单机械臂,移动机械臂系统和多机械臂系统功能更加强大,可以满足更多的生产需要。本文以移动机械臂系统和多移动机械臂系统为研究对象,考虑实际的运动情况,针对移动机械臂及多移动机械臂系统设计控制器,保证机械臂系
学位
天然气水合物钻探取样技术复杂且成本高,实物样品极其有限,物理模拟实验成本高且周期长,可模拟的实际条件有限、探测信息较少。岩石物理数值模拟为克服上述困难提供了一条可行的途径。本课题基于流场-电场耦合的有限元数值模拟方法研究了两相流体在管道和多孔介质中的非均匀分布状态以及相应的电学响应特性,从而为含天然气水合物或含油水岩石物理数值模拟实验提供了建模思路,为电学传感器的参数优化、电学测试数据的分析提供模
学位
现代工业系统具有大规模、高复杂度的发展趋势,系统运行中的安全性与可靠性问题,以及如何降低系统中的安全隐患是目前亟需解决的问题,故障诊断技术为解决这些问题提供了可能。网络化控制系统与传统结构系统相比具有传输速度快、成本低、可靠性强等优势。数据经网络传输产生的随机时延、丢包、异步会严重影响故障诊断性能,同时网络传输带宽在一般情况下是受限的,因此需要发展新的理论、方法和技术解决这些问题。本文旨在研究事件
学位
脑机接口(brain-computer interface,BCI)的出现,打开了人类通向意念控制的大门。目前,对于多类运动想象脑电信号(electro-encephalogram,EEG)的分析是BCI中至关重要的研究内容之一。但是,目前EEG信号分析还存在的特征提取困难及识别率低等问题,为了解决这些问题,对EEG信号的生理学基础、预处理方法、特征提取及分类算法等四部分内容进行了研究。(1)系统
学位
我国的原油消费对外依赖程度已经高达60.6%,严重威胁到我国能源安全和国家安全,开发海洋石油和天然气是缓解我国油气资源不足的重要手段,但海洋石油和天然气开采成本和消耗资源都极高,利用计划优化方法来优化采油生产全过程,无疑会带来巨大的经济效益。基于上述因素,本文针对海上采油过程,提出了从水下采油系统到水上平台的全过程集成优化方法。在综合考虑采油树生产安排,注驱,存储,人工举升等环节和海底管线的流动安
学位
文本分类是信息检索和文本挖掘的重要基础,它的主要任务是对给定的文本内容进行类别判定。传统的文本分类方法大多需要人工构建特征工程,而且避免不了高维度高稀疏的文本表示。基于深度学习(如卷积神经网络)的方法能够自动提取特征表示并捕捉局部相关性,但是提取特征的能力却受限于部分超参数(如卷积核宽度)。  针对深度学习存在的问题,本文提出了基于注意力机制的多通道卷积神经网络。该框架利用循环神经网络对文本进行序
学位
云计算作为一种新型的计算模式,已经在市场上得到了广泛的应用。它改变了传统网络计算的服务模式,通过互联网为用户提供动态的服务模型。用户根据这种模式能够随时随地地访问可配置的资源,如网络、存储、应用程序和服务。为了能够提供高质量的服务,云服务提供商需要在合理利用资源池的情况下管理不同用户请求之间的调度问题,将资源按需分配给用户。因此,研究资源调度对于云服务提供商和用户具有重要意义。随着市场需求空间的不
学位