基于质量估计的神经自动后编辑方法研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:erhtyyuk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习在机器翻译领域的成功应用和深入研究,与之相应的译文自动后编辑方法也由传统统计模型转向深度学习模型,如何将神经机器翻译模型有效地利用到译文后编辑领域,成为机器翻译相关的研究热点之一。自动后编辑中存在的一个普遍问题是过度修正,即在译文在后编辑过程中被修改的程度超过了实际需要而引起译文质量下降的情况。对于这个问题,现有的方法一般通过在训练数据中增加原始机器译文与人工后编辑译文相同的特殊训练集,或是在候选译文排序过程中添加惩罚因子以约束后编辑系统对机器译文的修改程度。但是这类做法很难同时兼顾系统的性能且减少过度修正。针对现有方法存在的这些不足,本文提出基于翻译质量估计的神经自动后编辑方法。我们首先使用TER脚本对后编辑过程中易出现过度修正的原始机器译文所需的编辑次数和类型进行统计,并使用Zipf拟合统计结果加以分析;然后依据分析结果将原始机器译文分类,对各类译文分别建立神经自动后编辑子模型;最后利用机器翻译质量估计方法建立候选译文的分层排序方法将子模型联合。为了验证本文所提方法的性能,我们在WMT’16、WMT’17机器翻译自动后编辑评测任务上进行了充分的实验验证,实验结果表明,基于翻译质量估计的神经自动后编辑方法能够提升原始机器译文的质量,而且相对于常规神经自动后编辑方法可以有效的减少后编辑过程中过度修正现象的出现频率。
其他文献
目的通过对大鼠行眶下神经结扎术构建三叉神经痛动物模型,注射缝隙连接蛋白1(Pannexin-1,Panx 1)特异性si RNA阻断三叉神经节中Panx 1的表达,采用Von Frey hairs测痛法,Weste
布莱恩·埃文斯(Brian Llewellyn Evans)是加拿大中国问题研究的著名学者,也是发展加国中国学研究的“领军”人物。他一生致力于中国问题研究,涉及中国历史、经济、文化、政
急性早幼粒细胞性白血病(Acute Promyelocytic Leukemia,APL)是近年来研究最透彻且预后最好的一类白血病,它是急性髓系白血病的M3亚型。t(15;17)(q22,q21)染色体易位而产生的
黄曲霉是一种腐生的土壤真菌,能够污染收获前和收获后的作物。同时,它也是一种机会病原菌,能够侵染人和动物引发曲霉病。黄曲霉毒素是一种次级代谢产物,主要是由黄曲霉和寄生
目前生物材料领域已经成为一个至关重要的领域,钛合金(TC4)以其良好的机械综合性能及生物相容性被广泛应用于生物医用植入物,但钛合金的机械加工性能较差,想要获得高的表面质
目的呼吸道合胞病毒(RSV)感染可以引起儿童急性脑病,导致神经系统症状,但尚未阐明其确切的致病机制。TLR4和核仁素两种受体都可以介导吸道合胞病毒感染中枢神经元。本课题的目的是研究这两种受体在RSV感染中枢神经元中可能的协同作用,为今后临床治疗以及疾病预防提供新的思路。方法实验用TLR4与C23过表达质粒转染293T细胞后,激光共聚焦和免疫共沉淀检测它们的共定位和相互作用情况;然后,以TLR4和C
骨组织工程是治疗硬骨缺损的一种重要方法。该方法需要制造出与缺损部位匹配的可降解人工骨支架模型,并植入人体的骨缺损部位。人工骨支架在体内降解的同时,人体生长新的骨组
目的:探讨超声内镜引导下细针穿刺抽吸活检(EUS-FNA)不同病理方法对胰腺实性肿瘤的诊断价值。研究方法:回顾性分析2014年1月至2018年12月间诊断为胰腺实性肿块,并于中国医科
细菌感染已成为公共卫生中最严重的风险之一,特别是细菌感染使常规抗生素抗菌效率降低。因此,开发新一代的抗菌剂或者引入新的抗菌模式成为这个领域的迫切需要。近几十年来,
目的:本文就北方地区儿童血液系统恶性肿瘤患者化疗后粒缺期合并有发热的病例的临床特征进行分析,为临床寻找病因、进行相关治疗提供较为可靠的依据。方法:回顾性研究2017年1