基于微调的无监督域适应蒙汉神经机器翻译的研究

来源 :内蒙古工业大学 | 被引量 : 0次 | 上传用户:weige1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是自然语言处理领域中一个重要的研究方向,主要研究从一种语言到另一种语言的自动翻译。随着深度学习研究的逐渐深入,神经网络在机器翻译领域的应用逐渐变得广泛,以及学者们孜孜不倦的研究使得机器翻译的性能一直在提升。当前,神经机器翻译能够取得较好的结果主要依赖于语言对的语料丰富,因为作为一种数据驱动的方法,神经机器翻译的性能高低严重依赖于语料质量的好坏和语料规模的大小。对于数据稀疏的语言对来说,神经机器翻译需要寻找其它方法缓解数据不足带来的对性能的影响。到目前为止,对语料贫乏的语言对的研究主要集中于对单语语料、迁移学习等方法。此外,实际应用中,训练数据和测试数据的边缘概率不同的情况是非常普遍的。因此,为了缓解语料稀疏问题以及训练数据和测试数据的边缘概率不匹配问题对性能的影响,本文进行了基于微调的无监督域适应蒙汉神经机器翻译模型的研究。首先,针对蒙汉领域内平行语料缺乏的问题,本文使用了域感知特征嵌入模型。使用领域内蒙汉语料和领域外英汉语料训练模型,获取汉蒙域内翻译所需的参数,然后将参数迁移至子模型并对子模型进行初始化后,使用这个模型将领域内汉语语料翻译为领域内蒙语语料,使用生成的平行语料进行后续训练。其次,对语料进行了子词级别的切分。蒙古语属于黏着语,单词由词根、词干和词缀组成,构词方式通常是在词干的前后附着词缀,故本文采取子词级别的切分方式,将蒙古文单词切分成字符组合,介于单词级别的切分方式和字符级别的切分方式之间,不仅可以有效地缓解未登录词的现象,还减少了单词词表量,还尽可能得保存了单词的语义特征。接着,为了增大训练语料的数量,并在一定程度上缓解数据量小造成的过拟合问题,本文使用了数据选择方法。根据领域内和领域外语料,对领域外语料的每条语句生成一个相似度分数,挑选相似度低于阈值的领域外语料,将挑选出的这部分语料引入领域内模型的训练。其中,阈值设定多个值,通过对比实验,从中选择结果最佳的阈值,实验结果表明使用数据选择方法可以提升模型翻译性能,提高BLEU(Bilingual Evaluation Understudy,双语评估替补)值。最后,使用课程学习策略对模型进行训练,将根据阈值挑选出的领域外语料按照相似度排序并平均分成多个片段后,按照一定概率选取语料以片段的方式喂入模型,通过机器翻译中的BLEU值对翻译结果进行评估。实验结果证明使用课程学习策略一定程度上提高了模型的翻译性能。
其他文献
东北黑土土质坚硬、级配良好、压缩性高,且具有较高的有机质含量,工程性质复杂。目前针对东北黑土的压缩性问题研究较少,相关试验及工程案例表明黑土存在湿陷问题。因此,本文将室内试验与理论分析相结合,对东北黑土的压缩特性、固结特性、湿陷特性问题展开研究,并建立了反映压缩及湿陷性质的Burland固有压缩理论模型和湿陷模型,以探究湿陷行为对东北黑土带来的影响。论文的主要研究内容及成果如下:(1)分析了不同有
河砂作为一种不可再生的建筑资源,目前面临着河砂资源匮乏的问题,若对其继续进行无限制的开采,必然会对自然环境造成严重破坏,寻找其替代材料成为混凝土用砂的研究重点之一。我国境内有着大范围的沙漠地区,所以风积沙储量极其丰富,若将其应用于工程实践,将会带来巨大的生态和经济效益。为推动风积沙资源在钢-混凝土组合结构中的应用,本文选取呼和浩特市托克托县境内库布齐沙漠风积沙作为原料,通过低周反复荷载试验进行了外
我国北方农村冬季供暖大部分采用散煤燃烧,因燃烧粗放,排放了大量烟气、烟尘、颗粒物等污染物,成为北方冬季雾霾现象的主要原因之一;另一方面,广大农村田间存在大量的可用生物质燃料,属于“碳中和”的能源,并没有得到合理有效利用,其中作物秸秆被露天焚烧产生烟尘和烟气,反而造成了环境污染;再有我国北方大部分地区有着较为丰富的太阳能资源,也没有得到充分利用。据此论文基于北方农村地区现有的供暖方式及存在的问题,依
古老的蒙古草原孕育着一代又一代蒙古人的精神与物质文化,彰显着蒙古民族经久不衰的生命力和创造力。蒙古包是蒙古民族文化智慧的结晶与活化石,从历史脉络中,蒙古包的多种功能属性彰显着不同的空间文化,形成一种民族特有的艺术符号,屹立在世界文化的大家庭中并一直延续到今。其中餐饮类蒙古包就是这样一种特殊的文化空间,本文所研究的蒙古包餐饮空间就是这类具有单一餐饮功能的蒙古包空间。餐饮文化是蒙古包文化中非常重要的组
随着人们对能源的需求量不断增加,化石能源带来的环境问题的日益突出。太阳能是一种取之不尽、用之不竭的清洁能源,但是由于太阳能的间歇性利用对其应用有一定限制。相变储热在热能储存中占有一定的优势,采用相变流体作为纳米流体的基液制备形成的相变纳米流体,具有高导热以及高储热的优良性能,在太阳能热系统应用中具有巨大潜力。本文介绍了相变纳米流体的制备方法以及性能研究,并且探究了相变纳米流体的集热温升规律。首先通
在太阳能中低温应用领域中,与其他太阳能聚光集热技术相比,复合抛物面太阳能聚光集热器具有对跟踪精度要求低、可接收部分散射光等优点,但其聚光集热性能受入射偏角影响大,日输出总能量波动大。为此,本文设计了一种新型复合抛物面太阳能聚光集热器,通过在其入光口玻璃盖板下表面增设板背相对的光伏组件,可以将未被光热转化的太阳光进行光电转化,提高了聚光集热器的光线接收率和太阳能利用效率,在冬季使用时,还可以利用光伏
随着我国新农村建设进程的加快实施,科学合理性的规划建设显得尤为重要。而现阶段多处于无序的自发性低水平阶段,缺乏相关成熟的理论支撑与深入研究,不同反射率下垫面对建筑室外热环境及人员活动区的微气候会产生很大影响,农村房屋建筑周边下垫面布局混乱、室外热物理环境差等问题急需解决。基于此,本文采用实验测试的研究方法,通过查阅相关文献和发展现状以及对呼和浩特周边农村进行走访调研,以下垫面反射率为研究切入点,对
我国西北甘宁黄河以东的石窟文化区是草原上的文化瑰宝,在自然灾害和人为因素作用下,石窟基本都存在不同程度的病害,如:风沙掩埋和侵蚀、表面粉化剥落、泛盐、泛碱、裂隙与空鼓等。通常采用水泥、石灰或化学浆材的灌浆技术等化学手段来进行修复工作,这些手段不仅消耗大量能源,同时对环境本身造成极大的污染,不能够满足现今时代节约资源与环境保护的要求,因此寻求新的修复方法是现阶段石窟建筑修复工作的一个重点内容。我国西
近年来,随着不同区域沟通的需要,机器翻译得到了长远地发展,少数民族语言等低资源语言也得到了越来越多地重视。针对于内蒙古自治区发展的需要,蒙汉机器翻译的研究及发展必不可少。目前的蒙汉机器翻译研究中,由于模型架构影响、蒙汉平行语料的匮乏以及语义特征提取困难等问题,导致翻译过程中仍有诸多不足,包括训练时间过长、翻译不准确、语义信息表达不足以及词向量表征不准确等问题。对上述问题进行分析研究,具体研究工作如
随着人们对生产生活中个人位置越来越关注,室内定位技术已成为导航定位领域的热点之一。卫星导航技术在室外定位领域已经获得了广泛应用,但由于卫星信号易受建筑物的遮挡,其并不适用于室内定位。超宽带(Ultra wide band,UWB)具有传输速率高、功耗低、穿透能力强等优点,但是其信号传播易受非视距(Non line of sight,NLOS)的影响;基于惯性测量单元(Inertial measur