基于数据增强与伪平行语料库的蒙汉神经机器翻译研究

来源 :内蒙古工业大学 | 被引量 : 0次 | 上传用户:yanzhijianer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2014年以来,神经机器翻译技术得到了飞速的发展,取得较多研究成果。但是在蒙汉机器翻译工作中,神经机器翻译方法的表现并不令人满意。神经机器翻译方法以规模庞大的平行数据作为依托。这正是导致神经机器翻译方法在处理蒙汉这种弱资源语言翻译任务时表现不尽人意的原因。本文主要通过数据增强方法构造伪平行语料库,以此来缓解蒙汉机器翻译任务中可用平行数据较少的问题。首先,通过简单数据增强和回译两种方法构造伪平行语料库。简单数据增强方法通过四种改变汉语句子的方式来构造蒙汉伪平行语料库,构造出来的新汉语句子将使用真实汉语句子对应的蒙语句子作为数据标签。回译方法使用一个蒙到汉的回译模型来构造伪平行语料库。在选取蒙语单语语料的过程中,以汉到蒙翻译过程中难预测的蒙语词及其所在句子的上下文环境为依据,选取更加合适的蒙语单语语料。回译模型以条件生成对抗网络为架构;条件生成对抗网络的生成器会完成回译任务,其鉴别器来优化生成器,使生成器可以翻译出更加贴近真实数据的汉语句子。其次,在数据预处理阶段采用BPE算法,在蒙汉双端构造出多粒度融合词典,使蒙汉翻译模型可以在一定程度上可以处理生词,提升蒙汉翻译模型的鲁棒性。在预训练阶段采用ELMo预训练模型来抓取汉语词的词义信息、句法信息和语义信息,并通过线性函数来合并这三种信息,动态的获取词嵌入向量,使其表示的信息更加精准。以此,提高翻译模型的翻译质量。最后以Transformer结构搭建一个蒙汉神经机器翻译模型,并使用软上下文增强技术随机选择一些即将输入到翻译模型编码器词嵌入层的汉语词,将它们的one-hot向量进行平滑处理,得到一个表达信息更加丰富的新向量,称为软词向量。将软词向量输入到翻译模型的编码器词嵌入层进行翻译工作。实验证明上述方发的结合使用可以有效提升Transformer模型的翻译能力。
其他文献
河砂作为一种不可再生的建筑资源,目前面临着河砂资源匮乏的问题,若对其继续进行无限制的开采,必然会对自然环境造成严重破坏,寻找其替代材料成为混凝土用砂的研究重点之一。我国境内有着大范围的沙漠地区,所以风积沙储量极其丰富,若将其应用于工程实践,将会带来巨大的生态和经济效益。为推动风积沙资源在钢-混凝土组合结构中的应用,本文选取呼和浩特市托克托县境内库布齐沙漠风积沙作为原料,通过低周反复荷载试验进行了外
我国北方农村冬季供暖大部分采用散煤燃烧,因燃烧粗放,排放了大量烟气、烟尘、颗粒物等污染物,成为北方冬季雾霾现象的主要原因之一;另一方面,广大农村田间存在大量的可用生物质燃料,属于“碳中和”的能源,并没有得到合理有效利用,其中作物秸秆被露天焚烧产生烟尘和烟气,反而造成了环境污染;再有我国北方大部分地区有着较为丰富的太阳能资源,也没有得到充分利用。据此论文基于北方农村地区现有的供暖方式及存在的问题,依
古老的蒙古草原孕育着一代又一代蒙古人的精神与物质文化,彰显着蒙古民族经久不衰的生命力和创造力。蒙古包是蒙古民族文化智慧的结晶与活化石,从历史脉络中,蒙古包的多种功能属性彰显着不同的空间文化,形成一种民族特有的艺术符号,屹立在世界文化的大家庭中并一直延续到今。其中餐饮类蒙古包就是这样一种特殊的文化空间,本文所研究的蒙古包餐饮空间就是这类具有单一餐饮功能的蒙古包空间。餐饮文化是蒙古包文化中非常重要的组
随着人们对能源的需求量不断增加,化石能源带来的环境问题的日益突出。太阳能是一种取之不尽、用之不竭的清洁能源,但是由于太阳能的间歇性利用对其应用有一定限制。相变储热在热能储存中占有一定的优势,采用相变流体作为纳米流体的基液制备形成的相变纳米流体,具有高导热以及高储热的优良性能,在太阳能热系统应用中具有巨大潜力。本文介绍了相变纳米流体的制备方法以及性能研究,并且探究了相变纳米流体的集热温升规律。首先通
在太阳能中低温应用领域中,与其他太阳能聚光集热技术相比,复合抛物面太阳能聚光集热器具有对跟踪精度要求低、可接收部分散射光等优点,但其聚光集热性能受入射偏角影响大,日输出总能量波动大。为此,本文设计了一种新型复合抛物面太阳能聚光集热器,通过在其入光口玻璃盖板下表面增设板背相对的光伏组件,可以将未被光热转化的太阳光进行光电转化,提高了聚光集热器的光线接收率和太阳能利用效率,在冬季使用时,还可以利用光伏
随着我国新农村建设进程的加快实施,科学合理性的规划建设显得尤为重要。而现阶段多处于无序的自发性低水平阶段,缺乏相关成熟的理论支撑与深入研究,不同反射率下垫面对建筑室外热环境及人员活动区的微气候会产生很大影响,农村房屋建筑周边下垫面布局混乱、室外热物理环境差等问题急需解决。基于此,本文采用实验测试的研究方法,通过查阅相关文献和发展现状以及对呼和浩特周边农村进行走访调研,以下垫面反射率为研究切入点,对
我国西北甘宁黄河以东的石窟文化区是草原上的文化瑰宝,在自然灾害和人为因素作用下,石窟基本都存在不同程度的病害,如:风沙掩埋和侵蚀、表面粉化剥落、泛盐、泛碱、裂隙与空鼓等。通常采用水泥、石灰或化学浆材的灌浆技术等化学手段来进行修复工作,这些手段不仅消耗大量能源,同时对环境本身造成极大的污染,不能够满足现今时代节约资源与环境保护的要求,因此寻求新的修复方法是现阶段石窟建筑修复工作的一个重点内容。我国西
近年来,随着不同区域沟通的需要,机器翻译得到了长远地发展,少数民族语言等低资源语言也得到了越来越多地重视。针对于内蒙古自治区发展的需要,蒙汉机器翻译的研究及发展必不可少。目前的蒙汉机器翻译研究中,由于模型架构影响、蒙汉平行语料的匮乏以及语义特征提取困难等问题,导致翻译过程中仍有诸多不足,包括训练时间过长、翻译不准确、语义信息表达不足以及词向量表征不准确等问题。对上述问题进行分析研究,具体研究工作如
随着人们对生产生活中个人位置越来越关注,室内定位技术已成为导航定位领域的热点之一。卫星导航技术在室外定位领域已经获得了广泛应用,但由于卫星信号易受建筑物的遮挡,其并不适用于室内定位。超宽带(Ultra wide band,UWB)具有传输速率高、功耗低、穿透能力强等优点,但是其信号传播易受非视距(Non line of sight,NLOS)的影响;基于惯性测量单元(Inertial measur
机器翻译是自然语言处理领域中一个重要的研究方向,主要研究从一种语言到另一种语言的自动翻译。随着深度学习研究的逐渐深入,神经网络在机器翻译领域的应用逐渐变得广泛,以及学者们孜孜不倦的研究使得机器翻译的性能一直在提升。当前,神经机器翻译能够取得较好的结果主要依赖于语言对的语料丰富,因为作为一种数据驱动的方法,神经机器翻译的性能高低严重依赖于语料质量的好坏和语料规模的大小。对于数据稀疏的语言对来说,神经