面向多任务知识迁移的低资源神经机器翻译研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:abc747665
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经机器翻译(Neural Machine Translation,NMT)方法得益于深度学习优秀的语言理解和生成能力,现阶段在语料资源丰富的翻译任务上取得了显著的成果。由于高资源任务具有数据规模大、句子标注质量高等特点,使得模型在训练过程中所面临的词对齐、短语抽取、翻译映射以及词序调整等问题都能够被有效解决。然而,目前很多机器翻译任务并不具备丰富的平行资源,容易在训练阶段导致过拟合问题,从而影响泛化性。常见的解决方法如迁移学习等受限于多任务词嵌入共享问题以及负迁移问题导致模型的性能得不到显著提升。而基于预训练方法的知识迁移也存在特征学习方式单一、模型部署困难以及训练-微调不一致的问题。此外,模型训练过程中由于数据稀疏而导致的曝光偏差和低健壮性问题也影响了低资源机器翻译的模型质量。因此,本文提出一种面向多任务知识迁移的低资源神经机器翻译方法,从语料选择、词嵌入映射、训练策略、模型优化等方面对知识迁移进行探究。具体包括以下几个方面:(1)对于多任务词汇共享问题以及负迁移问题,本文提出了一种多语言对齐词嵌入(Multilingual Alignment Word Embedding,MAWE)方法,通过构建一个额外的词嵌入空间来整合多语言词汇,将源语言和目标语言都作为被迁移语言来防止误差累积,采用联合优化方法学习所有语言的词嵌入在新词汇空间中的映射矩阵。此外,本文提出了一种基于Reptile的快速元学习方法代替传统迁移学习方法,通过多轮梯度优化来更新元参数,在保证模型泛化性的同时提升模型的训练效率。本文在多个低资源语言翻译任务上进行实验,并得出以下结论:采用MAWE方法的机器翻译模型的BLEU分数(Bilingual Evaluation Understudy)相比采用常规跨语言词嵌入的机器翻译模型,在三种低资源任务上分别提升了1.22、0.49和0.16。采用快速Reptile元学习策略的方法相比基线方法,在低资源任务上分别提升0.88、0.77和0.45。(2)对于基于预训练模型的知识迁移方法中存在的问题,本文提出了如下改进措施:针对特征学习方式单一问题,本文结合语义角色标注等词法信息提出一种预训练词嵌入方法。通过将单词与词法信息融合来提升词嵌入的多维表示能力。对于模型部署困难问题,本文提出一种层次化知识蒸馏方法。通过计算预训练模型的置信度来获得符合要求的输出。对于训练-微调不一致问题,本文还提出基于XLNet的预训练模型,以自回归方式学习上下文特征,并通过交互式注意力机制来融合预训练模型和机器翻译模型,从而提升模型性能。实验表明,当采用XLNet预训练模型和与词法信息相结合的预训练模型时,在相同实验环境下,模型在三个低资源任务上的性能都有所提高。(3)对于上述训练中存在的曝光偏差和误差累积的问题,本文提出了一种结合神经情景控制的强化学习方法。首先,引入单词级别的奖励来平衡训练过程,同时对经验进行排序并存储高优先级的经验,然后结合N步估值方式抽取高优先级经验并优化模型参数。此外,对于低鲁棒性问题,本文引入基于梯度的字翻转方法来生成对抗样本,通过向量操作来评估每种对抗样本对应的损失,消除具有最大损失的非鲁棒的特征。最终,通过重训练模型来优化性能。实验表明,基于神经情景控制的强化学习方法在经验选择和价值估计方面的效果均高于传统方法,BLEU分数分别提高了5.88、3.81和2.95。对抗样本的引入能够显著提升模型的鲁棒性和抗干扰能力,同时提升了模型的特征识别和预测能力。其中,学习错别字对抗样本和标点对抗样本后模型的性能提升明显,相比未采用对抗样本的基线模型,在三个低资源任务中分别提升了0.9、1.39和0.94。这也充分验证了模型的有效性。
其他文献
文化是民族的血脉,是人民的精神家园。文化强国战略是实现中华民族伟大复兴的重要途径。人才资源是第一资源。加强人才队伍发展路径及其评价体系研究是党和政府领导人才工作和人才队伍建设,推进人才工作科学化、规范化的重要基础。出版行业具有悠久的历史和深厚的文化积淀,在经济、政治、文化、社会、生态文明“五位一体”总体布局中具有重要地位。十几年来,国内学者对中国人才队伍在国家整体层面和省市区域层面的发展情况,设计
学位
光与物质的相互作用是导致光的吸收、自发辐射和受激辐射等光学过程的重要物理原因,相关研究既具有基础研究的意义,同时又有应用价值。在半导体系统中,光与物质的相互作用常常体现为光子与激子的耦合作用,分为弱耦合与强耦合。光子-激子强耦合导致极化子(polaritons)的产生,极化子作为一种杂化的元激发,既有光学模的色散性又有激子的非线性,在低阈值的激光器、全光逻辑器件以及量子信息的存储等方面有着重要的应
学位
收入不均一直是经济学中的一项核心议题。由于工资是收入的主要组成部分,探究同工不同酬的原因具有重要的现实意义。很多实证文献表明现实中存在严重的同工不同酬问题(Mortensen,2003)。工作搜寻只有当同工不同酬出现时才有意义,因此研究者们一直试图在该框架内将同工不同酬内生化。本文在工作搜寻的框架内,为同工不同酬提供了两个替代性的解释。我们首先通过允许企业在招人之前租赁资本,拓展了Burdett
学位
现代法治国家不允许对公民随意发起刑事调查,只有在具体的犯罪嫌疑已经成立时侦查方可启动。理论上,侦查启动前应当有一个确认有无犯罪发生之可能的调查。在我国,由于立案程序的存在,为判断是否达到立案的条件,侦查程序启动前常常必须进行一定程度的调查。目前,国外学界较少关注这一调查的过程,并且一般将侦查启动前的调查归类为行政警察进行的行政调查。例如,德国警察实务和警察法学界将确定是否具备启动侦查程序所要求的“
学位
私营军事安保公司这一特殊的跨国行为体由来已久,越来越频繁地出现在人们的视野当中。它从20世纪八十年代开始,在西方国家安全私营化和市场化潮流、国际安全形势深刻变革等背景下逐渐发展融合,业务领域和活动范围不断扩展,活跃于各大地缘热点,留下了许多政治、法律和实践问题。特别是,私营军事安保公司所提供的军事和安保服务是一种特殊的商业服务,它借此以跨国商业实体的身份参与国际公法性事务,其活动对国际关系和国际安
学位
改革开放以来,我国坚持以马克思主义为指导,积极吸收和借鉴国外金融发展理论的有益成果,走出了一条符合国情的金融发展道路,为经济发展和崛起作出了巨大贡献。但也必须看到,我国金融发展在服务经济发展方面仍然存在一系列问题,如金融规模扩大对经济增长的拉动作用减弱,实体经济和中小民营企业融资难融资贵,直接融资特别是股权融资发展不足,金融服务实体经济的质量效率有待提高等。怎样评价我国金融发展现状及其对经济增长的
学位
马克思列宁主义在中国的百年传播与发展史也是一部不断推进马克思列宁主义中国化的历史。马克思列宁主义中国化的实现首先离不开文本和概念的中国化,因为概念不仅是反映对象及其本质属性的思维形式,还是逻辑思维的细胞和构成理论的基石,既是认识的结晶,又是认识的起点。马克思主义理论作为一门独立的学科拥有自己的概念体系,只有马克思主义理论中的基本概念术语实现中国化,才能真正推动马克思主义理论在中国传播与受容;只有在
学位
同源一致性,是指在子代个体共享的一段DNA区域内的等位基因来源于一个共同的祖先。IBD片段的检测是基于谱系祖先的减数分裂来追溯的,由于在减数分裂过程中,DNA片段会被重组打断,会使从祖先遗传的现存DNA片段减小,从而导致IBD片段不断缩小。IBD片段已应用于相位划分、评估遗传力、疾病基因的定位、推测人群的群体历史、检测群体自然选择信号和监测种群动态等。在本研究中,利用同源一致性分析定位重型痤疮的易
学位
2013年中国提出“一带一路”倡议以来,美国各界高度关注。美国作为世界的霸权国和国际秩序的主导者,对国际事务具有较大的影响力,也是影响“一带一路”建设重要的外部因素。美国智库在美国政治中扮演着独特的角色,它既能影响美国政府的政策制定,又能影响美国舆论,进而影响国际舆论。美国智库界高度重视“一带一路”,发布了大量研究报告和成果,美国智库学者多次被邀请到美国国会发表有关证词。美国智库的观点是美国政策界
学位
本文从认知语言学的角度研究了蒙古语的基本颜色词。第一章除了研究蒙古语有几个颜色词的范畴外,还研究了颜色词之间的区别。研究结果得出,在蒙古国指蒙古语基本颜色的词有11个,即“(?)(黑),(?)(白),(?)(红),(?)(黄),(?)(绿),(?)(深蓝),(?)(天蓝),(?)(紫),(?)(棕),(?)(灰),(?)(粉)”等颜色。在蒙古国,(?)(深蓝)和(?)(天蓝)两个不同范畴的颜色词很
学位