论文部分内容阅读
随着自然语言处理和机器翻译技术的发展,利用人工智能技术来提高不同语言间的翻译效率和准确率逐渐成为了研究热点。其中,端到端(End to End,E2E)神经网络模型结构的神经机器翻译方法由于翻译准确率高、译文语义性强等优点逐渐成为研究的重点,但依然存在词汇受限、译文忠实度低等问题。为了解决端到端神经机器翻译中存在的上述问题,本文围绕机器翻译预处理过程中的分词和语料标注问题进行研究,缓解语料词汇受限问题。同时为提高译文质量,对端到端模型的构建过程展开研究。本文在端到端机器翻译模型的预处理阶段对于语料的分词算法进行研究,给出一种基于隐马尔可夫模型(Hidden Markov Model,HMM)的分词模型进行序列的分词标注。同时使用判别式方式和条件随机场(Conditional Random Field,CRF)模型来对蒙古语进行词干词缀的切分和标注。在语料的表示上,以低维的分布式表示方法来处理蒙汉双语语料中的词语向量化问题,以此来适应端到端模型的输入和输出。针对蒙汉机器翻译中译文忠实度问题,结合主流的神经机器翻译端到端框架构建一种基于卷积神经网络(Convolution Neural Network,CNN)和门控循环单元神经网络(Gated Recurrent Unit,GRU)相结合的编码解码模型。卷积神经网络构建编码器利用卷积层层叠特性和并行计算的方式获取源语言句子长时信息,以向量方式进行语义的表达并实现模型的编码,同时加快编码速度和质量。根据编码器的编码状态,利用门控循环单元神经网络对汉语进行目标语言解码,在进行双语词对齐处理过程中结合一种全局注意力模型来获取双语的词对齐信息,根据门控循环神经网络模型进行目标语词语的预测和输出,经过编码和解码过程,实现形成从源语言到目标语言的映射。最后,本文对基于端到端的蒙汉机器翻译系统进行模型的翻译实验并对实验结果进行对比分析,利用BLEU值评测指标对模型中译文的质量进行评测。实验结果显示,基于端到端的蒙汉神经机器翻译模型在译文质量、语义困惑度方面相比较传统的统计方法和基于循环神经网络的机器翻译基准模型得到了提高。