基于单语语料库的汉蒙神经机器翻译方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:simuwuzx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是自然语言处理领域重要的研究方向,近年来随着深度学习的飞速发展,神经机器翻译逐渐成为研究和应用的主流翻译方法,然而其严重依赖大规模平行语料才能获得较好翻译结果的弊端依然存在,因此对诸如汉蒙等低资源语言对的翻译效果不佳。单语语料相较于平行语料具有数量多、易获得等特点,在平行语料不足的低资源机器翻译中有着举足轻重的作用,但目前单语语料库还没有很好地应用在神经机器翻译中。本文针对汉蒙平行语料资源不足和蒙古语形态复杂多变等情况,研究了单语语料库作为平行语料库的补充在低资源汉蒙神经机器翻译中的应用,提出了多种基于单语语料库的汉蒙神经机器翻译方法。本文的主要工作分述如下:(1)提出了一种结合词向量对齐和语言建模的汉蒙神经机器翻译方法。首先利用汉语和蒙语单语语料库分别训练二者的词向量,然后使用对齐的汉蒙词向量来初始化模型的词向量层,同时模型在进行翻译的过程中使用单语语料进行语言建模的训练,从而增强模型的编码解码能力。(2)提出了一种基于字符级语言建模的汉蒙神经机器翻译方法。神经机器翻译难以处理未登录词和低频词,因此本文设计了一种基于字符级语言建模的翻译方法,将汉语词和蒙古语词拆分成字或字符,使得模型能够处理语料中未出现的词或低频词。此外模型使用对偶结构引入了语言建模,从而可以在翻译的过程中进行字符级的语言建模训练,使翻译出的结果更符合语法更通顺。(3)提出了一种结合权重共享和字符级语言模型预训练的汉蒙神经机器翻译方法。为了更好地利用语言之间的共性,本文将模型编码器的前几层参数进行共享,同时加入基于字符感知的语言模型预训练,使用预训练的模型来对翻译模型进行初始化,最后再进行翻译的训练,同时在翻译的前半段加入字符级语言建模操作来微调翻译模型,进而提高翻译的性能。本文研究了单语语料库在汉蒙神经机器翻译中的应用,提出了结合词向量对齐和语言建模、基于字符级语言建模、结合权重共享和字符级语言模型预训练的汉蒙神经机器翻译方法。实验结果证明,本文提出的三种基于单语语料库的汉蒙神经机器翻译模型都可以显著地提升汉蒙神经机器翻译的效果。
其他文献
软测量技术就是根据工业过程知识合理地选择其它易测变量,建立易测变量与难测变量间的软测量模型对难测变量进行最优估计,有效解决了在高温、密闭等恶劣环境下,由于硬件传感
在数字图像处理领域,受到数字图像传感器的限制,数字成像系统对于景物景深的控制范围有限。所拍摄的图像在同一场景下会出现清晰区域和模糊区域,即为多聚焦图像。将多聚焦图
高频交易作为一项新兴算法交易,近些年在国内外发展十分迅速,但由于一些硬件和政策的限制,在中国还很难实施这样的策略。在欧美市场,高频交易策略也经历过活跃和低迷,但国外市场的政策和制度更适合高频交易。高频交易有利有弊:高速的交易会带给市场高流动性,其稳定的累积收益源自于精确的数学理论和计算机的支持;但无法监管和给予市场的不公平性又破坏了证券市场。最优执行作为一种先进思想萌芽于19世纪中期,Markow
随着人工智能技术和数据科学的快速发展,近年来越来越多的基于计算机视觉的任务如交通监控、天网安防、目标检测等都对输入图像的清晰度有着更高的要求。然而受大气中悬浮颗
TIG焊,即钨极惰性气体保护焊是目前普遍应用的焊接工艺之一。由于其电弧稳定、无飞溅、焊缝成形好、力学性能良好等特点广泛应用于航空航天、石油化工等对焊缝质量要求较高的
本文以4SRRR足式爬壁机器人为研究对象,针对船舶表面的攀爬问题,系统的从吸附装置、移动方式、步态规划、运动学分析、动力学分析、控制策略等多方面展开研究,对其工程应用与
激光通过湍流大气中的传输于自由空间光通信(FSO)、生物医学、国防军事、激光雷达(Lidar)、光探测和光学操纵等许多应用中都有着重要的影响。激光在湍流中传输时受湍流的影响
目前关于Mg-Zn系合金的研究大多聚焦在其组织变化引起的力学性能改变上,而关于Mg-Zn系合金铸造性能的研究则非常有限。国内外的学者们通过添加不同的合金元素,并分别采用不同
电动舵机系统是复杂的高精度位置伺服系统,用于制导武器飞行姿态的控制,直接影响武器性能。作为制导武器制导控制系统的执行机构,电动舵机系统及其折叠翼舵的设计与试验,对小
信息时代的迅猛发展和广泛普及,使电子与通信系统对天线的要求也随之升高,设计小型化多频天线便成了领域内研究的重点方向。论文以传统的微带单极子天线为基础,对应用于WLAN