论文部分内容阅读
近年来,随着深度学习技术的兴起,该项技术的使用为机器学习的许多应用领域带来了很多优秀的成果。在这些领域之中,最令人瞩目的研究成果即为机器翻译技术领域。作为整个学科领域的领头者,机器翻译方向所使用的技术无疑当属人工智能领域中最先进的技术。目前,应用神经网络技术架构的机器翻译模型当属全世界最先进的机器翻译模型,简称神经机器翻译(Neural machine translation,NMT)。由于神经机器翻译属于一门监督学习技术,且其拥有着超强的学习能力,双语平行语料质量的好坏与规模的大小将直接关系到机器翻译模型最终的学习效果。因此,在神经机器翻译模型训练开始之前,存在大量需要针对数据语料进行的处理技术,利用这些技术对原始数据进行处理后得到新一批数据用于支撑NMT模型的训练,才能够得到更好的学习效果。通过阅读大量参考文献和书籍,本文面向NMT模型的数据预处理阶段中的多项技术方法,针对其中的分句技术、子词切分技术以及数据增强技术均提出了创新性的改进,从而使NMT模型在训练开始前能够得到更加优质的数据资源,以此得到更加优质的模型性能。本文首次将双向长短期记忆神经网络模型应用于分句技术,提出了一种基于Glove+Bi-LSTM+CRF架构的泰语句子切分模型,使用该模型能够成功实现对泰语句子的精确切分。另外,本文还提出了一种有效的数据增强方法,能够以原始双语平行数据集为基础,从单词以及句子两个层面分别实现有效的数据扩充,由此实现对于NMT模型性能的提升。除此之外,本文还提出了一种全新的子词切分算法架构,首次使用消息队列技术实现算法执行过程中的信息传输,保证进程间的信息共享。方法利用多进程联合学习的方式,切实解决了在子词切分算法过程中词表学习过慢的问题。本文提出的泰语句子切分模型在其对应的测试集上能够达到98.2%的F1值结果,且模型切分精度能够明显优于同领域研究的实验结果,证明了方法的有效性。另外,对于本文提出的数据增强技术,在对基础数据集执行数据增强操作后,其在多个测试集上均实现BLEU值的提升,且超越了目前非常有效的数据增强方法back-translation的结果。除此之外,本文提出了一种子词切分算法的全新技术架构,使用该方法能够明显提升算法执行效率,极大地缩短NMT模型的训练周期。总之,本文提出的方法对于NMT模型翻译精度与训练执行周期均能够带来较大的提升,对整个NMT模型的研究与发展具有良好的指导意义。