基于枢轴语言的汉越神经机器翻译方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:dcqnj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前神经机器翻译的翻译效果,取决于训练数据的质量与规模,但是目前汉语-越南语的神经机器翻译因平行语料规模较小,导致了汉越神经机器翻译的性能不够理想。如何利用互联网中的资源丰富的语种来改善低资源机器翻译的性能是当前的研究热点之一。采用基于枢轴语言的方法可以有效利用资源丰富的语种的数据,以此提升低资源语言神经机器翻译的性能。本文利用资源丰富的语种为前提进行研究,采用基于枢轴语言的方法,将大互联网中存在着大规模的汉英、英越平行语料引入汉越神经机器翻译的训练过程中,从而提升汉越神经机器翻译的性能,本文主要在以下几个方面开展了进一步的研究:(1)汉-英、英-越、汉-越平行语料库构建。汉语-越南语是典型的资源稀缺型语言对,由于训练数据不足极大的影响了汉越神经机器翻译的性能。因此,为了提高汉越神经机器翻译任务的性能,本文主旨研究的是基于枢轴语言的汉越神经机器翻译方法研究。为了本文的实验所以构建汉-英、英-越、汉-越平行语料库是非常必要的。本章先从互联网中收集汉越,英越,汉英的平行语料。然后对收集到的语料进行人工筛选和乱码过滤,再通过枢轴语言训练模型回译,数据增强的方法扩充语料规模,最后使用语言模型对扩充后的语料进行筛选,得到汉-英、英-越、汉-越平行语料库。通过这些方法,本文最终一共获取了约12万句对的汉越平行句对,70万的英越平行句对,5000万的汉英平行句对为接下来的实验提供了训练数据。(2)提出了基于英语为枢轴语言预训练的汉越神经机器翻译方法。在神经机器翻译中,利用资源丰富的语言来改善资源稀缺型语言的翻译是十分有效的方法。在众多语种中,英语资源丰富,且存在大量的英汉和英越的翻译研究,可以获得规模较大质量较高的汉英和英越双语数据。因此本章利用英语作为枢轴语言,将汉英、英越平行语料桥接,然后将大规模汉英、英越平行语料预训练神经机器翻译模型,再使用汉英,英越平行语料训练得到的神经机器翻译模型的编码器与解码器的参数来对汉越神经机器翻译模型的编码器与解码器参数初始化,最后使用汉越小规模语料对模型参数进行微调,以此构建汉越神经机器翻译模型。实验表明,基于英语为枢轴语言预训练的汉越神经机器翻译使用英语作为枢轴语言提高了模型的参数质量,从而提高翻译性能。(3)提出了基于枢轴的汉越联合训练神经机器翻译方法。在汉越平行语料数量受限的情况下,基于英语为枢轴语言的联合训练方法能充分利用大量汉英和英越的平行语料,提升汉越翻译模型的翻译质量。本章使用英语作为枢轴语言提出了一种基于枢轴的汉越联合训练神经机器翻译方法,将大规模汉语-英语,英语-越南语平行语料,以及小规模汉语-越南语平行语料进行联合训练。首先使用小规模的汉越平行语料训练翻译模型得到汉越词语在语义空间上的表示信息,然后将汉英和英越的翻译模型进行联合训练,其次在训练过程中汉英模型的编码器与英越模型的解码器和预先得到的汉越词语在语义空间上的表示信息和进行相互计算优化。实验结果表明,本章方法有效的将汉越平行语料与汉英、英越平行语料结合起来进行联合训练,一定程度上提升了低资源场景下汉越机器翻译的性能。(4)设计并实现了基于枢轴语言的汉越神经机器翻译系统。该系统包括机器翻译模块、Web后端服务模块、Web前端服务模块。其中翻译模型的实现在Transformer的模型的基础上使用了枢轴语言改进训练方法,将轴语言的思想使用在神经机器翻译框架中。
其他文献
随着我国经济的快速发展,旅游业也慢慢凸显出其作为支柱性产业的优势,而冬季旅游开始被消费者接受日趋成熟,目前,人们的收入水平稳步增长,对生活质量及身体健康有了更高的要求。对于传统旅游业来说,冬季相对于其他季节是淡季,但是随着时代的发展,冬季旅游已经使人们转变观念,走出家门,也逐渐开始接受冬季旅游的主要项目滑雪。冬季旅游会受到天气情况的影响,而滑雪这种新兴的旅游活动,已日趋成为新的经济增长点,体现出越
在以时间频率为核心的时频系统中,如卫星导航、授时与定位系统等,常常需要辅助提供和处理高精密的时间和频率信号。这里面包括了频率的变换,频率和相位的调整,频率、相位和时
红色文化作为中国先进文化的重要组成部分,是中国共产党带领中国人民在革命、建设和改革过程中形成的宝贵财富,是进行思想政治教育的优质资源。将红色文化融入大学生思想政治教育中,是推动社会主义文化繁荣的重要举措,也是加强思想政治工作,弘扬时代新风的重要手段。大力发展和弘扬红色文化,对当代大学生思想政治教育具有重要意义。本文由绪论、正文和结论三个部分构成。绪论部分简要介绍研究背景和研究意义,通过对国内外关于
背景:减孔腹腔镜远端胃癌根治术(RPLDG)是一种近年来较为流行治疗早期远端胃癌的微创(MIS)手术方法,两孔法腹腔镜远端胃癌根治术(DPLDG)是其中的一种。但其可行性和安全性仍
教材中的习题作为教材的重要组成内容,其编写情况直接反映了教育培养目标,影响教材的质量,因此教材习题的比较研究已日益成为教育研究的热点。我国高中教育中“概率与统计”这个领域起步晚,教材中习题的编写相对缺乏经验,因此比较我国不同版本教材中“概率与统计”习题的设置,有利于教材的改进和使用。本研究通过计数、模型及内容分析,对人教A版、北师大版和苏教版教材中“概率与统计”习题从类别、数量、类型、数学认知水平
高堆石坝在国内外日益增多,但是对堆石体内部结构特征缺乏探究,对筑坝堆石料力学特性缺少认识,是当前制约高坝建设的主要原因。目前,对堆石坝及其筑坝材料堆石料的研究,多采用基于宏观连续介质力学理论的有限元法,该方法难以探究堆石料内部细观结构对结构力学特性的影响,存在一定的局限性。因此,本文从细观力学角度,研究了堆石料细观蠕变接触模型,并应用PFC离散元颗粒流软件进行数值模拟,验证了该蠕变模型;在此基础上
改革开放以后,外来文化的冲击以及水墨本身艺术发展的需要逐渐呈现出多种样式,逐渐开始出现了水墨艺术,之所以会出现水墨艺术:首先是试图与传统中国画隔开距离;其次是中国艺
由于稀土元素具有独特的电子结构和优良的光物理性能,因此稀土金属离子与有机配体构筑的稀土配位聚合物在多个领域有很好的潜在的应用价值和发展前景,尤其是荧光传感和白光调控方面。本文旨在利用稀土金属与氮杂环多羧酸配体和氨基苯甲酸配体构筑两个系列稀土配位聚合物,并且利用X-ray单晶衍射方法测定了其结构,根据晶体学数据分析总结了稀土元素之间的镧系收缩规律。利用红外(IR)、紫外可见(UV-vis)、热重(T
自从《社会信用体系建设规划纲要(2014-2020)》颁行以来,社会信用体系建设迈进地步伐不断加快,信用似水般润物无声渗入至社会治理每处角落。而构成核心机制的失信联合惩戒制度因其既有治理之刚性,通过联合惩戒措施对失信行为进行事后的惩罚和约束减少其获利;又具备激励之柔性,可对那些损人利己的失信冲动发挥事先预防和制止作用,达到“不战而屈人之兵”之功效,尤为引人注目。作为发挥信用基础作用的新型监管机制,
概念图作为教和学的工具用于课堂教学可以帮助教师书写教学设计、实施教学评价、分析学生的认知结构、引导学生主动学习;学生通过绘制概念图可把复杂、零散、难以构成知识网络的生物学概念以图形形式简明地呈现,进而在新概念与旧概念间搭建一座桥梁,便于理清概念间的关系,促进认知结构的形成。本研究将贵阳市第九中学的高一(2)班和高一(3)班分别作为实验班和对照班,前者施行概念图教学,后者施行常规教学。以奥苏贝尔的有