论文部分内容阅读
面向军事领域的土耳其语-汉语神经机器翻译研究,属于低资源语言垂直领域机器翻译研究范畴。采用基于神经网络的机器翻译方法,通常需要将源语言词表的规模控制在3-5万之内,且神经机器翻译模型的训练往往需要大规模平行语料数据作为支撑。对于土耳其语这种低资源语言来说,必然面临着严重的数据稀疏问题,即常见土耳其语单词的数量可以达到百万量级,大量低频词将被处理为“未登录词”,进而影响翻译模型生成译文的流利程度。受利用源语言知识可进一步提升神经机器翻译性能这一发现的启发,本文尝试从“未登录词”处理、平行语料库构建、融入源语言句法信息等关键问题研究入手,分别利用形态分析方法构建土耳其语神经机器翻译词表、基于反向翻译的句对齐检验方法筛选开源土-汉双语平行句对、基于相似形态结构的句子聚类方法扩充土-汉双语平行数据、基于土耳其语军事术语自动抽取及替换的方法增强平行数据的军事领域属性,以期通过源语言数据精加工的方法提升土-汉神经机器翻译模型处理军事领域文本的能力,相关成果对于推动土耳其语-汉语神经机器翻译理论、方法和技术的发展无疑具有重要的学术探索意义。本研究的主要学术贡献如下:(1)针对土耳其语神经机器翻译词表构建、命名实体识别、领域术语抽取等多个自然语言处理任务,提出了一种基于词典和规则的土耳其语单词形态分析方法,构建了一个由“词根+形态句法标记”、“词根+形态标记”和“词根+屈折组”三种不同形态分析形式构成的土耳其语形态分析器。该形态分析器的形态分析词典以TS-Corpus形态分析词表为基础,额外增加了固定搭配、命名实体词缀、未登录词、拼写错误、复合词和形态消歧规则表,词条总数为1120000余个。形态消歧规则包括基于单词同现约束、基于格词缀标记约束和基于单词整体形态句法标记约束的消歧规则三类。土耳其语形态分析器具有开放式的词表优化功能,可有效避免规则之间发生相互冲突的问题。实验分析结果表明,利用上述三种方法对词表规模为742060词形式的153万句土耳其语训练语料进行形态剖析,土耳其语总词表规模分别缩减84.36%、84.78%和85.33%,相较于基础形态分析词表,基于“词根+屈折组”的形态分析方法可使常用词汇减少21.4%。(2)针对土-汉双语平行语料资源匮乏问题,提出了一种基于形态分析的土耳其语句子聚类方法,设计了一个基于句子聚类的土耳其语简单句抽取工具。该程序主要包括基于“词根+UNK”的词根结构聚类、基于“词缀+UNK”的句法结构聚类和动态增加专有名词、时间、日期、数字标记的句子结构聚类三种聚类方式。按照高频结构语句抽取、在线机器翻译实验和半监督式译文选取三种操作,本文首先从规模为500万句的土耳其语单语语料库中抽取了500种最常见结构语句,然后利用必应、小牛和谷歌在线翻译系统获取相应的汉语译文,通过人工干预的方法构建了一个规模约为10000句的土-汉双语平行语料库,结果表明通过该方法可有效获取一定规模较高质量土-汉双语伪平行数据来扩充训练语料。(3)针对开源土-汉双语平行数据对齐错位、译文质量差等问题,提出了一种基于反向翻译的土-汉双语句对齐检验方法。该方法首先利用谷歌在线机器翻译系统获得待检验语句的反向翻译译文,然后通过构建词袋模型进行句子语义相似度计算,进而自动实现土-汉平行语句对齐的检验和抽取。本文基于该方法对210万个土-汉双语句对进行筛选,共抽取保留153万个句对作为通用领域翻译模型训练语料,有效提升了土-汉双语平行语料库的质量。(4)针对军事领域机器翻译系统无法回避的专业术语问题,提出了一种基于混合策略的土耳其语军事术语抽取方法,设计了一个面向军事领域文本的土耳其语军事术语自动抽取工具。本文首先对航空、通信和军事三个领域的术语词典进行对比分析,提取了土耳其语军事领域术语的独有特征,然后根据这些特征构建了停用词表、关键词表和形态分析词表序列模式列表,并最终通过点互信息、信息熵和左右临接词缀实现了术语自动抽取工具的构建。在此基础上,本文构建了一个规模为1500个词条的土-汉军事术语词表,并利用该词表对规模为9万句的军事领域土-汉伪平行数据进行了优化。(5)针对神经机器翻译模型无法学习数据之外先验知识的短板,提出了基于序列和基于表示学习的词法信息融合方法,对土耳其语词根序列和形态句法标记序列分别进行编码,并将拼接后的隐层状态表示用于模型训练的词向量表示,结合基于BPE算法的子词切分方法,训练了7个面向通用领域和2个面向军事领域的标准Transformer土-汉神经机器翻译模型。根据BLEU评测结果,基于形态分析构建土耳其语神经机器翻译词表的方法明显优于基于BPE算法的子词切分方法,其中“词根+屈折组”的形态分析方式效果最佳,据此训练的通用领域翻译模型BLEU评测结果相较于BPE基线模型提高了1.15,据此训练的军事领域翻译模型BLEU评测结果相较于通用领域翻译模型分别提高了1.82和1.58。通过“词根+形态句法标记”和“词根+形态标记”的方式进行形态分析结果表明,基于表示学习的平行编码方式训练的翻译模型优于基于单一序列编码方式训练的翻译模型。本文探讨了融合语言学知识和数据增强方法在低资源条件下土-汉神经机器翻译领域的应用,主要针对神经机器翻译词表设计、军事术语自动抽取和土-汉伪平行数据构建这三个关键问题分别制定了适用性强的技术策略,可显著提升土-汉神经机器翻译的性能,并取得了良好的实验结果,为垂直领域土-汉神经机器翻译研究提供了新思路和新方法。在将来的研究工作中,相关数据和技术成果可扩展应用于其他低资源语言信息处理任务,以满足未来军事任务需求。