论文部分内容阅读
机器翻译是指利用计算机将源语言语句转换成目标语言语句的过程,机器翻译突破不同语言之间沟通交流障碍,应用广泛且需求量大,是自然语言处理领域中的一个重要应用方向。回复式神经网络是一种既包含前馈通路又包含反馈通路的网络,其前馈通路相似于传统前馈神经网络模型,反馈通路可将某一些神经元的输出在之后时刻反送到自身作为新时刻的输入。这种特殊结构使得网络能够较好地捕获时序性信息,针对机器翻译技术中无法很好地捕获上下文信息的缺陷,提升传统机器翻译效果。但是基于回复式神经网络的机器翻译技术仍然存在诸多不足,包括长句翻译缺陷、可读性缺陷和漏译缺陷等。本文基于实际应用数据特性,设计数据处理方法实现由原始数据到机器翻译模型输入数据的转换;针对现阶段基于回复式神经网络的机器翻译技术中存在的缺陷,提出新的机器翻译模型,提升机器翻译效果。主要工作如下:(1)分析应用数据的形式和数据中存在的诸多不足,提出基于语言模型和语句相似度的数据处理方法。该方法包含对原始应用数据的处理、清洗和筛选,最终构建得到较高质量的用于机器翻译模型训练学习的数据集。(2)分析现有基于回复式神经网络的机器翻译技术存在的长句翻译缺陷、可读性缺陷和漏译缺陷,提出基于分块原理的机器翻译模型,提升机器翻译效果;同时提出基于语言模型的Beam Search算法,结合长度惩罚策略,测试应用阶段辅助机器翻译模型生成最终翻译结果。(3)从数据处理方法和机器翻译技术两方面分别展开实验对比,评估基于语言模型和语句相似度的数据处理方法以及基于分块原理的机器翻译模型的有效性。对比实验结果表明,基于语言模型和语句相似度的数据处理方法有效保证数据质量,间接提升机器翻译模型算法表现;基于分块原理的机器翻译模型改进传统基于回复式神经网络的机器翻译模型,翻译效果相较于Encoder-Decoder模型等有所提升。