低资源语言神经机器翻译关键技术研究

来源 :中央民族大学 | 被引量 : 1次 | 上传用户：rsdt25302530

【摘要】

：

机器翻译,研究如何利用计算机自动地实现不同语言之间的相互转化,是自然语言处理的重要研究方向之一。近年来,随着深度神经网络技术的飞速发展,学术界和工业界的机器翻译研究

【作者】

：

赖文

【出处】

：

中央民族大学

【发表日期】

：

2020年01期

【关键词】

：

神经机器翻译低资源语言数据增强技术无监督技术枢轴语言

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

机器翻译,研究如何利用计算机自动地实现不同语言之间的相互转化,是自然语言处理的重要研究方向之一。近年来,随着深度神经网络技术的飞速发展,学术界和工业界的机器翻译研究也逐渐从传统的统计机器翻译向神经机器翻译转化。经过大规模、高质量的平行语料训练,神经机器翻译的性能在多个翻译任务中都达到了媲美人类手工翻译的水平。但除英语、汉语等少数语言外,世界上大多数语言对之间都不存在大规模的平行语料,属低资源语言,这给神经机器翻译和应用研究带来了新的课题。本文旨在探索神经机器翻译技术在低资源语言场景下的应用,为此分别研究了三种情况下汉语与“一带一路”部分国家语言和我国少数民族语言之间的机器翻译技术。本文的主要贡献包括:☆针对低资源语言神经机器翻译中的数据匮乏问题,本文在拥有少数平行语料的前提下,结合语料对齐和语法纠错等技术,提出了一种基于语义相关词替换策略的数据增强方法,通过自动增加平行语料的数量以达到提升神经机器翻译性能的目标。实验结果表明,该方法在蒙古语、藏语、维吾尔语和阿拉伯语与汉语之间的翻译任务中取得了很好的性能,最高有3.06个BLEU点的提升。☆针对一些语言对之间不存在平行语料的问题,本文分别利用两种语言的大规模单语数据,结合双语平行语料挖掘技术和跨语言词嵌入技术,提出了一种不依赖于任何平行语料的无监督神经机器翻译模型,本文实验的语言对包括:阿拉伯语、俄语、葡萄牙语、印度语与汉语之间的机器翻译任务。实验结果表明,该方法可以在一定程度上提升无监督神经机器翻译任务的性能,最高有5.19个BLEU点的提升。☆针对一些语言与汉语之间不存在平行语料,但与英语存在平行语料的情况,本文利用英语作为枢轴语言,结合对偶学习模型和模型融合思想,提出了一种基于枢轴语言(英语)的神经机器翻译模型,扩大了神经机器翻译的适用范围。实验结果表明,该方法在爱沙尼亚语、拉脱维亚语及罗马尼亚语与汉语之间的机器翻译任务中的性能有明显提升,相比于传统的基于语料翻译的方法,最多有16.31个BLEU点的提升。通过在“一带一路”沿线国家和我国少数民族语言选取的10种语言与汉语之间进行的机器翻译实验表明,我们提出的三种方法和目前的机器翻译方法相比较,均取得了不同程度的翻译性能的提升。同时,为了与当前相关技术做比较,我们还在一些资源丰富语言及近距离语言对中进行实验,也验证了本文提出方法的有效性。

其他文献

苯磺酸左旋氨氯地平依那普利治疗原发高血压

笔者应用苯磺酸左旋氨氯地平联合依那普利治疗原发性高血压取得了满意的效果，现总结报告如下：

期刊

苯磺酸左旋氨氯地平依那普利原发性高血压

拜科努尔发射场的中国学生

2009年9月25日,中国北京潞河中学学生董明启程前往俄罗斯拜科努尔航天发射场。此前,在俄罗斯驻华大使馆为她举行了隆重的欢送仪式俄罗斯联邦驻华大使拉左夫在仪式上发表了热情洋溢的讲话,他表示俄罗斯和中国之间一直以来都有着很好的交流与合作,特别是近几年来,这种交流与合作有了更深入更广泛的发展,他希望通过开展丰富多彩的中俄青少年交流活动,让中俄青少年对彼此都有更深入的了解,将中俄的友谊持续发展下去。　　

期刊

拜科努尔发射场中国学生拜科努尔航天发射场俄罗斯联邦交流活动持续发展青少年

洛克希德·马丁公司成功进行爱国者-3导弹试验

11月1日，洛克希德。马丁公司的爱国者-3导弹在新墨西哥州白沙导弹靶场的一次飞行试验中，成功探测、跟踪并拦截了一枚空气动力战术弹道导弹目标。

期刊

导弹试验马丁公司洛克希德爱国者新墨西哥州飞行试验导弹靶场导弹目标

重汽五岳起重机产品特点及优势

起重机主臂选用高强度合金钢材料，屈服极限可以达到60～100MPa，减轻了自重，国内流行的大圆弧六边形或十二边型截面，较大限度地利用了材料的性能，显著提升了吊臂的起重性能，自对中性好

期刊

起重机产品特点优势起重性能高强度合金屈服极限起重能力钢材料

用相关系数表示线性回归系数的标准差

<正> 对两随机变量X,Y的独立观察列 (x_i,y_i),(i=1,2,…,n) (1)的数据处理可得出其期望E(X)、E(Y),方差Var(X)、Var(Y),协方差Cov(X,Y)和相关系数ρ_(XY)的估计值(?)(X)、(?

期刊

标准差相关系数线性回归系数

区域旅游开发中生态环境保护的不确定性研究

区域旅游规划强调改革旅游管理体制、加强旅游产业的横向联合以及从区域的角度合理配置旅游资源,为解决旅游区生态环境保护问题提供了可能。但在实际操作中,由于资料获取、指

会议

区域旅游开发生态环境保护不确定性弹性规划

62例药疹分析

我院1997年10月-1999年10月, 因各种类型药疹而收入院的患者共62例, 笔者对其进行了病案统计分析, 现将结果报道如下.

期刊

药疹变态反应分析

电场强化锰矿尾矿湿法浸出行为研究

随着锰产业的迅锰发展,国内高品位锰矿逐渐枯竭,有必要探索锰矿尾矿资源化利用技术。实验采用电场强化锰矿尾矿的湿法浸出过程,并探索其强化机理。通过X射线衍射(XRD)、X射线

期刊

锰矿尾矿电场强化浸出

金银花在中国传统饮料中的应用

<正>金银花是我国名贵中药材,《名医别录》记叙了金银花具有治疗"暑热身肿"之功效。李时珍在《本草纲目》中说;金银花能治疗一切风湿气及诸肿毒、疥癣、杨梅诸恶疮。称金银花

会议

思密达用于口腔溃疡的疗效观察

口腔溃疡是血液病患者的常见并发症之一, 如何预防由此而导致的败血症是护理的棘手问题.我科自1998年以来, 用思密达治疗口腔溃疡, 取得了较满意的效果, 较好的解决了血液病

期刊

口腔溃癌思密达锡类散

低资源语言神经机器翻译关键技术研究

与本文相关的学术论文