基于协同训练的半监督蒙汉神经机器翻译研究

来源 :内蒙古工业大学 | 被引量 : 0次 | 上传用户:wuheli0811
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展和进步,人与人之间的沟通交流变得愈发频繁,而拥有一种可以跨越地域限制、打破语言障碍的沟通方法就显得尤为重要。然而,大数据时代的到来,给利用传统人工翻译方法处理海量语言信息的工作带来了极大的困难。机器翻译技术的出现顺应了时代要求,且机器翻译技术的应用离不开大量高质量平行语料库的支撑。面对蒙语这种小语种语言,由于其使用范围较小且蒙古族经济文化发展相对缓慢等原因,使得高质量蒙汉平行语料的收集变得十分困难。因此,如何高效、合理、充分的利用已有语料提高蒙汉翻译模型的质量成了一个重要研究内容。基于此现状,本文依次从以下三个方面进行了基于协同训练的半监督蒙汉神经机器翻译的研究。首先,对已有的全部语料进行预处理,分别针对数据集的划分、语料规模的确定、语料的切分以及BERT预训练进行了研究,并对每一部分内容进行了实验论证,为后续研究的顺利开展奠定基础。然后,针对译文质量不佳、模型泛化能力不强的问题,采用半监督的条件序列生成对抗网络进行翻译模型的训练。为了获得更好的效果,对生成器模型和鉴别器模型分别应该采用哪种神经网络的问题进行了研究;对基于注意力机制的Transformer模型通过优化损失函数的方式进行了改进;在生成器和鉴别器进行对抗训练的过程中采用了加入BLEU函数Q的策略梯度算法;并对以上所有研究进行了对比实验。最后,针对蒙汉平行语料稀缺导致的翻译模型质量不佳问题,在利用条件序列生成对抗网络训练翻译模型的基础上引入了协同训练方法。在该方法的应用过程中,采用了平行语料质量较好且较易获得的英汉翻译模型与蒙汉翻译模型进行协同训练,且采用困惑度评测方法对系统所产生的两种汉语译文进行选择。另外,英汉翻译模型的输入是由蒙语单语转化而来的英语,这涉及到了蒙英平行语料的获取和蒙英翻译模型的构建。最后对所有研究内容进行了对比实验,得出实验总结。以上研究中,蒙汉翻译模型质量的评测都采用BLEU评测方法,通过对各个实验数据的对比分析,发现基于协同训练的半监督学习方法在提高蒙汉翻译模型质量方面具有一定的优势,这将对蒙语的发展、各族文化的交流甚至经济贸易的发展具有一定意义。
其他文献
随着社会的发展和全球人口数量的增加,淡水资源短缺已成为人类社会面临的最关键问题之一。太阳能界面蒸发技术作为一种新兴的水处理技术,在仅使用太阳能这一低品位能源的前提下为淡水资源匮乏的地区生产淡水,且不会破坏环境,从而成为研究者们近几年来的研究重点。尽管在光热转化效率方面取得了巨大的进步,但是太阳能界面蒸发系统的大规模应用仍然受到材料制备工艺的复杂性和高成本的制约。因此开发一种成本底、结构简单、易于加
随着组合导航技术的快速发展,基于卫星/惯性松组合导航系统因其便于工程实现而被广泛采用。但当卫星信号失锁时,卫星/惯性松组合导航系统将转为纯惯性导航系统,导致精度急剧下降。针对该问题,本文对北斗/MEMS-SINS松组合可持续导航算法及其嵌入式实现方法展开研究。首先,研究捷联式惯性导航系统解算原理和北斗/MEMS-SINS松组合导航系统的基本原理,设计了基于定位定向北斗导航接收机的的北斗/MEMS-
地基微变监测雷达在边坡滑坡、人工建筑物微小形变监测领域已经得到了广泛的应用,但受制于二维雷达图像的几何畸变问题,无法实现对高陡边坡等地形复杂区域的形变监测。地基微变监测雷达三维成像能够从根本上消除二维雷达图像的几何畸变问题,在近年来得到广泛的研究。在微变监测方面,差分干涉技术在边坡等的微变监测领域得到了广泛应用;但由于其重访周期较长,在形变速度较快目标的微变监测方面,出现严重的相位缠绕问题,导致解
关于微弱信号的定义有两种,一种是指有用信号幅度绝对值很小,另一种是指有用信号的幅度相对噪声来说很微弱。本课题主要讨论第二种情况下的微弱信号,即淹没在高斯白噪声背景下的微弱周期信号。传统的微弱信号检测方法都是通过抑制或者滤除噪声来提高系统输出信噪比,但当信号和噪声同频带情况下,滤除有害噪声的同时,部分有用信号也会被破坏,这就使得检测微弱信号的准确性大幅降低,导致得不到理想的结果。正是这些问题的存在,
在我国的青藏高原上以及位于北纬35°以北的地区的江河,冬季极其容易结冰成凌,到了春季开河时期,往往会发生凌汛灾害,其中黄河内蒙古段的情况尤为严重,为了减少甚至避免凌汛灾害造成的影响,需要及时、准确地获取冰情信息。极化合成孔径雷达(Polarimetric Synthetic Aperture Radar)Pol SAR技术的出现,使得成像雷达对目标信息的获取能力得到了极大地增强。这为实现更大范围、
空时自适应处理(STAP)是机载雷达在非均匀环境中进行运动目标检测的关键技术。抑制检测环境中的杂波与干扰是机载雷达完成目标检测任务的基础。传统STAP方法要想获得理想的处理性能,理论上用于估计杂波功率谱的训练样本数量不能少于系统自由度的两倍。然而在实际应用中,机载雷达所面临的杂波环境通常是非均匀、非平稳的,难以获取足够数量的均匀训练样本,导致STAP性能严重损失。本文针对小样本、非均匀、非平稳条件
小型化和一体化是导航系统的发展趋势之一。卫星/惯性紧组合导航具有精度高、抗干扰性强和复杂度适中等优点,但在实际应用中,因恶劣天气、复杂地形等影响,会出现系统性能下降、无法持续导航的问题。本文的目标是研究北斗/MEMS-SINS紧组合可持续导航算法及其嵌入式实现方法。首先,研究了基于加速度计和磁力计的姿态角计算原理、捷联惯性导航系统的基本原理和基于联邦滤波的北斗/MEMS-SINS紧组合导航系统的数
随着照明技术的高速发展与革新,草原受到了其周边城镇的光污染,草原夜晚天空的发亮情况有加重加快的趋势,对草原环境产生了破坏。但目前的研究仅局限于城市内部夜空发亮的研究,缺少草原整体性夜空发亮,即草原夜空广域光的研究。同时缺少对草原夜空广域光亮度定量化的研究,缺少草原夜空广域光的发亮机理研究,也缺少对草原夜空广域光亮度计算性的研究。目前研究不能充分的为草原夜空保护提供理论依据和数据支持。因此论文选用草
端到端语音识别模型将声学模型和语言模型集成为一个整体,不需要人工对齐音频与文本,能够直接将音频转换为文本。基于注意力机制的序列到序列模型是端到端语音识别的一种实现,并在英文数据集Librispeech上取得了SOTA的识别结果。本文以基于注意力机制的序列到序列模型为基础开展蒙古语在线语音识别研究,其中存在以下几个问题:(1)蒙古语数据集是低资源语料,即有标注的蒙古语音频匮乏且地区分布不均衡。低资源
移动互联网和无线通信技术的发展和普及,催生了大量计算密集和时延密集型应用。移动设备(Mobile Devices,MDs)因其计算资源和电池容量的限制,不能满足新型应用的性能需求。而现有的移动云计算技术需要将待存储数据和待计算任务远距离传输到云端,会产生较高的时延。移动边缘计算(Mobile Edge Computing,MEC)技术可以利用无线通信技术将待存储数据和待计算任务卸载到附近具有空闲资