论文部分内容阅读
神经机器翻译(NeuralMachine Translation, NMT)借助机器学习和深度学习的迅速发展以及计算机硬件能力的快速提高取得了前所未有的成就。虽然受益于多种深度神经网络优越的表达能力,翻译模型在一定程度上能够自动学习特征,但语料稀缺、语义表达方式单一等问题使模型的学习表征能力不能充分发挥,这也是阻碍低资源机器翻译进一步发展的关键原因。这些固有的特点会引起一系列的翻译问题,如常见的UNK(Unknown Words)问题,模型泛化能力差问题,指代错误问题和过拟合问题等。
本文在深度学习的基础上针对低资源神经机器翻译中的一些关键问题展开研究,对问题的原因和本质进行深入的分析,然后在此基础上提出相应的解决方案,并在多个低资源翻译任务上对提出方法进行实验验证和分析。本文的研究内容主要围绕以下几个方面:
1.针对突出的曝光偏差、评价指标一致性等问题,本文将强化学习应用到低资源神经机器翻译中,利用目标奖励机制和动态采样算法使机器翻译通过评测指标来指导模型训练。同时尝试将价值迭代应用到强化训练过程中,探索不同粒度对序列解码过程的影响,并在此基础上提出一种在解码阶段能够发挥各粒度优势的基于自由粒度输入的训练策略,解决低资源任务中语义表达方式单一的问题。
2.针对强化训练在翻译时出现的语义损失问题,本文提出一种将基于序列之间余弦夹角的语义损失计算作为强化训练的优化目标之一的策略,探索在有效提升译文BLEU(Bilingual Evaluation Understudy)值的同时进一步提升译文的可读性。
3.针对低资源机器翻译中的UNK和指代错误问题,本文提出一种噪声泛化训练策略,借助生成对抗网络的博弈训练机制使模型在训练过程中能够对添加的噪声泛化。噪声策略通过将引起问题的原因转换为序列噪声,进而使其在对抗训练中被模型泛化,从而解决一类机器翻译中由固定原因引起的问题。由于策略本身不受模型或噪声形式的约束,因此对于自然语言处理中一些原因确定的问题,可能具有一定的参考价值。
4.针对低资源翻译任务训练过程中突出的过拟合问题,本文提出了一种融合型Drop方法,以期获取对于低资源任务更好的权重和节点分布。
本文对于上述关键问题在多个低资源语言翻译任务上验证了提出方法的合理性和有效性,主要的实验结果和贡献包括:①基于动态采样的强化训练方法能够有效的解决曝光偏差和评测指标不一致问题,且在三个低资源任务上相对基线提升了2-4个BLEU值;②提出的基于语义约束的强化训练方法能够有效的缓解译文中出现的“高BLEU值-低可读性”的现象,在‘①’的基础上显著的提升了译文的流利度;③提出的自由粒度训练策略能够为输入提供更丰富的语义信息,并且能够通过价值迭代模块准确的找到合适的解码粒度。模型在三种低资源语言翻译任务上相较基线系统提升了1-5个BLEU值,且价值迭代模块能够相对基线系统缩短近1/3的训练时间;④提出的噪声训练策略在多个形态丰富的低资源翻译任务上都显著的降低了符号的数量。对于指代错误问题,在(20×10000)个迭代步中序列级BLEU值平均能够提高2个百分点;⑤提出的融合型Drop方法在合理的概率分布下提供的训练子网数相对Dropout和Dropconnect有指数级的提升,且验证得出实验中的低资源任务在成功概率为[0.2-0.3]时,模型训练的效率最高。
本文在深度学习的基础上针对低资源神经机器翻译中的一些关键问题展开研究,对问题的原因和本质进行深入的分析,然后在此基础上提出相应的解决方案,并在多个低资源翻译任务上对提出方法进行实验验证和分析。本文的研究内容主要围绕以下几个方面:
1.针对突出的曝光偏差、评价指标一致性等问题,本文将强化学习应用到低资源神经机器翻译中,利用目标奖励机制和动态采样算法使机器翻译通过评测指标来指导模型训练。同时尝试将价值迭代应用到强化训练过程中,探索不同粒度对序列解码过程的影响,并在此基础上提出一种在解码阶段能够发挥各粒度优势的基于自由粒度输入的训练策略,解决低资源任务中语义表达方式单一的问题。
2.针对强化训练在翻译时出现的语义损失问题,本文提出一种将基于序列之间余弦夹角的语义损失计算作为强化训练的优化目标之一的策略,探索在有效提升译文BLEU(Bilingual Evaluation Understudy)值的同时进一步提升译文的可读性。
3.针对低资源机器翻译中的UNK和指代错误问题,本文提出一种噪声泛化训练策略,借助生成对抗网络的博弈训练机制使模型在训练过程中能够对添加的噪声泛化。噪声策略通过将引起问题的原因转换为序列噪声,进而使其在对抗训练中被模型泛化,从而解决一类机器翻译中由固定原因引起的问题。由于策略本身不受模型或噪声形式的约束,因此对于自然语言处理中一些原因确定的问题,可能具有一定的参考价值。
4.针对低资源翻译任务训练过程中突出的过拟合问题,本文提出了一种融合型Drop方法,以期获取对于低资源任务更好的权重和节点分布。
本文对于上述关键问题在多个低资源语言翻译任务上验证了提出方法的合理性和有效性,主要的实验结果和贡献包括:①基于动态采样的强化训练方法能够有效的解决曝光偏差和评测指标不一致问题,且在三个低资源任务上相对基线提升了2-4个BLEU值;②提出的基于语义约束的强化训练方法能够有效的缓解译文中出现的“高BLEU值-低可读性”的现象,在‘①’的基础上显著的提升了译文的流利度;③提出的自由粒度训练策略能够为输入提供更丰富的语义信息,并且能够通过价值迭代模块准确的找到合适的解码粒度。模型在三种低资源语言翻译任务上相较基线系统提升了1-5个BLEU值,且价值迭代模块能够相对基线系统缩短近1/3的训练时间;④提出的噪声训练策略在多个形态丰富的低资源翻译任务上都显著的降低了