基于子词切分的句子级别神经机器译文质量估计方法

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:xiaoshen1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在国际交流日趋频繁的当今时代,机器翻译减轻了不同国家和地区的人们在信息交流中因为语言差异带来的障碍。机器翻译质量估计是在不借助人工参考译文的情况下自动估计机器译文的翻译质量,它在机器翻译后编辑和辅助机器翻译中发挥着重要的作用。首先,本文针对句子级别的译文质量估计任务提出了一种联合神经网络模型。传统的神经译文质量估计模型由两部分组成:一部分是基于双向循环神经网络的编码器-解码器子模型,该部分可认为是特征提取模块;另一部分是计算译文质量估计得分的循环神经网络子模型,该部分可认为是有监督的回归模块。我们将这两部分子模型联合成单一的端到端的神经网络模型,该模型中编码器-解码器子模型使用大规模的双语平行语料进行预训练,而整体模型参数使用译文质量估计任务语料进行统一训练。其次,我们提出了融合不同子词切分方法的神经译文质量估计方法。为了克服词表过大给神经机器翻译模型构建和训练造成的不利影响,近年来,学者们提出了BPE和SentencePiece子词切分方法,它们极大地提升了机器翻译质量,但是,还没有研究工作调查不同子词切分方法对神经译文质量估计的影响。在深入分析BPE和SentencePiece子词切分方法优缺点的基础上,我们提出融合词语切分、BPE子词切分和SentencePiece子词切分的神经译文质量估计方法。我们在WMT17、WMT18句子级别译文质量估计任务上验证了本文提出的两种方法,实验结果表明我们提出的方法显著地提高了译文质量估计的性能。并且,我们使用本文提出的联合神经网络模型参加WMT18句子级别译文质量估计任务,评测官方公布的结果中,在6个机器翻译译文评测子方向上,联合神经网络模型在英语-捷克语、英语-拉脱维亚语的统计机器翻译和神经网络机器翻译方向上取得了第1名;在德语-英语、英语-德语神经网络机器翻译方向上与阿里团队参与的系统并列第1名;在英语-德语统计机器翻译方向上取得第3名。
其他文献
<正>中国传统文化中的"蛟"到底是何种动物?翻检史籍我们发现,古人所说的蛟应是在综合鳄鱼、大鱼、蟒蛇、牛等动物特点的基础上组合而成的一种具有神化色彩的动物。许慎《说文
深圳环境有限公司成立于2016年年底,是深圳高速公路股份有限公司(00548.HK)的子公司。在母公司战略转型的关键时期,深圳高速环境有限公司承担着发展新业务和寻求新的利润增长
随着高新技术的飞速发展,市场竞争的进一步加剧,越来越多的企业开始专注自己的核心资源,并将经营管理中部分职能让外部专家来代理。外包已成为企业在市场竞争中制胜的重要手
<正>全国少工委六届四次全委会提出,要狠抓活动课程建设,下大力气探索实施有质量、有效果的少先队活动课程。由此笔者认为,落实少先队活动课时,实施《少先队活动课指导纲要(
研究了多功能助剂单甲基丙烯酸锌(ZMMA)对异戊二烯橡胶性能的影响,探讨了ZMMA对药用聚异戊二烯垫片性能的影响以及减少锌用量的可行性。结果表明,使用ZMMA代替ZnO能有效促进
<正>选择最佳切削刀具对机加工生产企业的成功至关重要。这也是一项不断反复的工作,并将直接影响到产品加工周期及工厂竞争力。一个普通的超市一般用48750个单元货位用来摆放
<正>伊斯卡继续拓展其现有产品系列,在全球金属加工领域建立新规则。最新的伊斯卡IQ系列新品就涵盖了各切削刀具领域。新HIGHQLINE(IQ)系列的各刀具家族,通过前沿的解决方案
<正> 任何一个复杂短语(即复杂词组)和句子都是由词和短语组合而成的。它们在组合时,不是在一个层次上的一次性组合,也不是一个挨着一个地顺次组合,而是一个层次套上一个层次
目的探讨食管金属内支架治疗晚期食管癌临床价值。方法病理证实的晚期食管癌21病例,行放置食管金属内支架治疗。术前行食管钡餐造影,了解病变段的长度及所用金属内支架的长度