论文部分内容阅读
术语是领域专家用来刻画、描写领域知识的基本信息承载单元,也是科技文献的核心成分,因此术语翻译的准确性将直接影响到科技文献翻译的整体质量。机器翻译系统在翻译篇章级别的科技文献时,通常采用切分句子、逐句翻译再合并翻译的流程。此种翻译策略导致机器翻译系统在句子语境中对其中的术语进行翻译时,通常会遇到两个问题:1)领域不一致:术语具有较强的领域属性,在不同领域和上下文语境中,翻译会有差异,这种在领域发生变化时导致的翻译差异性仅仅依靠机器翻译系统中的语言模型以及对源语言句子的注意力机制难以甄别。2)缩略翻译问题:多数术语由多词组成,在科技文献中经常以缩略语形式出现。同一缩略语通常具有多个全称,对应了多个含义。机器翻译系统翻译缩略语的时候,无论是移译还是还原翻译,翻译系统只能获取到句子的语境信息,当缺乏篇章信息和领域属性时常常出现缩略语的翻译错误。为了改善上述两个问题,本文着重改善机器翻译系统在句子语境中对于术语和缩略语的翻译问题。
针对领域不一致问题,本文设计了一个基于领域知识库的多义术语翻译模型:该模型使用中图分类号集合作为术语的显性领域信息,利用科技词系统和科技论文等领域知识库构建了领域多义术语词典,为术语翻译提供译文;从领域性和语言模型两个维度对术语译文进行筛选,帮助改善句子的译文。实验表明,该模型可以提高一般术语所在文本的整体翻译质量,BLEU得分提升了0.5个百分点。
对于缩略翻译问题,本文构建了一个融合篇章信息和领域信息的缩略语翻译模型。该模型引入缩略语的篇章信息和领域信息,篇章信息记录每个缩略语在篇章中出现的位置信息,帮助翻译系统在缩略语首次出现的时候给出全称翻译,以声明该缩略语的具体含义,在之后出现的时候给出简称,使篇章的翻译保持简洁。领域信息记录缩略语的领域属性,保证缩略语的全称翻译和句子所属的领域属性一致,从而改善篇章的翻译。实验表明,根据领域属性对缩略语全称译文筛选的准确率达到了93.8%,BLEU得分提升了0.82个百分点。
综上所述,本文提出的基于领域知识库的多义术语翻译模型和融合篇章信息和领域信息的缩略语翻译模型可以通过改善句子语境中术语和缩略语的翻译提升整个句子乃至篇章的翻译质量;实证研究也一定程度上说明了方法的有效性。
针对领域不一致问题,本文设计了一个基于领域知识库的多义术语翻译模型:该模型使用中图分类号集合作为术语的显性领域信息,利用科技词系统和科技论文等领域知识库构建了领域多义术语词典,为术语翻译提供译文;从领域性和语言模型两个维度对术语译文进行筛选,帮助改善句子的译文。实验表明,该模型可以提高一般术语所在文本的整体翻译质量,BLEU得分提升了0.5个百分点。
对于缩略翻译问题,本文构建了一个融合篇章信息和领域信息的缩略语翻译模型。该模型引入缩略语的篇章信息和领域信息,篇章信息记录每个缩略语在篇章中出现的位置信息,帮助翻译系统在缩略语首次出现的时候给出全称翻译,以声明该缩略语的具体含义,在之后出现的时候给出简称,使篇章的翻译保持简洁。领域信息记录缩略语的领域属性,保证缩略语的全称翻译和句子所属的领域属性一致,从而改善篇章的翻译。实验表明,根据领域属性对缩略语全称译文筛选的准确率达到了93.8%,BLEU得分提升了0.82个百分点。
综上所述,本文提出的基于领域知识库的多义术语翻译模型和融合篇章信息和领域信息的缩略语翻译模型可以通过改善句子语境中术语和缩略语的翻译提升整个句子乃至篇章的翻译质量;实证研究也一定程度上说明了方法的有效性。