面向神经机器翻译的数据缩减方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:luoxingrobin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经机器翻译(NMT)是机器翻译领域的最新技术,需要大规模的双语平行数据作为训练语料。现有的公开双语平行数据集的种类较多,数据的质量各有不同。然而,规模较大的数据集中会出现数据冗余的问题,质量低的数据集则包含较多的噪声,这些数据问题会增加模型的训练成本以及影响模型的性能。为了降低双语平行数据集对NMT的影响,本文将从数据规模和数据质量两个方面展开面向神经机器翻译的数据缩减研究,主要工作包括:(1)基于句子向量的静态数据选择方法。大规模的双语平行数据集中通常会出现很多语义相似的平行句对,相似的平行句对对于模型的贡献也是相似的。这些相似的平行句对的存在并不一定能帮助模型提升性能,反而会增加模型的训练成本。为了减少双语平行数据集中相似的平行句对,本文提出了一种静态的数据选择方法,在句子语义的基础上缩减双语平行数据集的规模。在联合国的中英翻译任务上,静态的数据选择方法帮助模型缩减了训练时间,同时实现了模型在大规模数据集上训练的模型性能。(2)基于训练损失的动态数据选择方法。NMT的一个特性是需要大规模的双语平行数据集作为训练数据。根据这一特性,本文提出了基于训练损失的动态数据选择方法,在训练过程中逐步减少训练数据的规模。在联合国的中英翻译任务上,动态的数据选择方法不仅帮助模型减少了半的训练时间,而且提升了模型的翻译性能。(3)平行语料库过滤。针对低质量的双语平行数据集的噪声过滤任务,我们在跨语言的语义空间上训练噪声分类器来识别嘈杂的平行数据集中的噪声,并提出通过丰富负样本的多样性来增强分类器的分类性能。在WMT的德英平行语料过滤任务上,NMT在过滤过的德英语料上获得了翻译性能的提升。
其他文献
<正>9月1日,开学第一天。第一节课铃声响起,浙江省金华市兰溪诸葛镇中心小学校园内的琅琅书声此起彼伏":夫君子之行,静以修身,俭以养德。非淡泊无以明志,非宁静无以致远……"
膀胱癌是泌尿系统最常见的恶性肿瘤之一,移行细胞癌(TCC)是其最常见病理类型。肿瘤分级、分期是目前评估膀胱移行细胞癌恶性程度、预测肿瘤预后的最常用指标,但由于肿瘤的生物学
目的 探讨全反式维甲酸联合奥沙利铂对HCT116/L-OHP细胞耐药性的逆转作用及机制。方法 开始阶段利用HCT116结肠癌细胞实行小剂量奥沙利铂连续联合大剂量冲击的方法培养HCT116结肠癌耐奥沙利铂细胞(HCT116/L-OHP);MTT法检测不同浓度下HCT116/L-OHP的OD值,根据OD值求IC50,进而求得HCT116/L-OHP细胞的耐药倍数;根据MTT法获得经过奥沙利铂联合不同浓
碳酸盐岩气藏在全球油气资源中一直处于非常重要的地位,高效开发碳酸盐岩气藏对保障我国油气供应、推动社会发展具有长远的战略意义。本文以碳酸盐岩三重介质气藏为研究对象,
基佐《欧洲文明史》所表露出的历史观是,欧洲文明具有丰富性、普遍性,多元因素构成了近代欧洲文明,国家和政府应当保障社会的自由。在《欧洲文明史》中“自由”和“集中”是两大
混凝土夹芯复合墙板是一种集保温和结构于一体的复合墙板。因其自重轻,保温好的特性广泛应用于工程实践中,研究推广该墙板,符合建筑节能的标准和要求,具有重要意义。抗压性能
本文以西安市公交线路调整群众建议征集为例,设计了基于ASP的公交线路优化调整群众意见征集系统,系统采用B/S结构,利用ASP技术、Access2003数据库技术及Dreamweaver CS6网页
如今全球经济的飞速发展所需的能源严重依赖于化石燃料,从而引起了环境的污染。对于经济的未来发展我们需要转变思想寻求可持续性和绿色的能源。超级电容器这一储能设备不仅
目的:探讨"医院—家庭"延续性护理在脑卒中压疮高风险患者中的应用价值。方法:采用临床资料查证法,选取本院2016年10月至2017年6月以来收治的34例脑卒中患者为研究对象,依照护理
[背景] PSCA是最近发现的一个前列腺癌相关肿瘤抗原,因与SCA-2有30%同源性而得名,后者为Thy-1/Ly-6细胞表面抗原家族成员之一,其生理功能目前尚不清楚。PSCA有很高的前列腺组织特