论文部分内容阅读
双语翻译规则作为统计机器翻译模型的核心,包含从源语言短语到目标语言短语的短语表和表中互为翻译的短语的概率分数。在统计机器翻译模型中,双语翻译规则信息用于在译文生成阶段将源语言短语序列转换成目标语言短语序列,为后续译文调序提供输入。此外,双语翻译规则信息还可以作为神经网络机器翻译模型的外部指导资源,为这类模型的译文选择阶段提供短语级别的相关信息。因此,在当前深度学习快速发展和广泛应用的背景下,基于其对双语翻译规则信息进行进一步研究将有助于推动机器翻译领域的进一步发展。同时,无论是统计机器翻译模型还是神经网络机器翻译模型,其译文中均长期存在着过翻译问题和欠翻译问题,二者频繁出现且严重影响译文质量,但目前机器翻译领域中通用的BLEU等自动评价指标,无法对这两种问题进行针对性评估,也就无法为试图解决这一问题的研究者们提供明确指导。综上所述,本文提出了引入语义约束信息的双语短语嵌入表示模型,以基于深度学习的方法对双语翻译规则信息进行改善,同时针对过翻译问题和欠翻译问题分别提出了自动评价指标,本文的主要贡献如下:1、引入翻译概率分布和复述概率分布约束信息的双语短语嵌入表示模型。针对传统方法中将短语表中的短语视为不同的符号标记,而不考虑短语间语言学信息之间深层关系,并将每个互为翻译的短语对独立看待,忽略了其中拥有相似语义的短语间应存在的约束关系的缺点,本文提出在使用双语递归自编码器模型对短语嵌入表示进行学习的基础上,向其中引入翻译概率分布和复述概率分布作为新的约束信息,迫使所学习到的短语表示是语义平滑的,从而进一步丰富机器翻译模型中的翻译规则信息。本文工作从模型中提取了基于短语嵌入表示的相似度信息特征,并将其融入到了基于短语的机器翻译模型中,NIST中文-英文翻译任务上的效果表明了本文模型的有效性。2、针对过翻译问题和欠翻译问题的自动评价指标。本文提出了基于机器翻译系统译文和对应的参考译文之间的N元组匹配精确度的自动评价指标,分别对过翻译问题和欠翻译问题进行针对性评价,弥补了当前例如BLEU等主流的自动评价指标只在忠实度和流利度两方面对译文整体质量进行评估,而无法针对具体语言现象准确评估的缺陷。在NIST中文-英文翻译任务中的译文结果上,本文所提出的与人工评价结果之间的高度相关性表明了本文所提出的评价指标的必要性和有效性。