面向有限平行语料资源的神经机器翻译方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:sunplusit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习的研究热潮迅速渗透了自然语言处理研究的各个领域,其中也包括了机器翻译领域。深度学习给机器翻译带来了极大的改变,使之不再需要面对传统统计机器翻译中的特征设计等难题。特别地,使用了深度学习技术的神经机器翻译近几年在国内外都取得了突飞猛进的发展,获得了翻译效果上的全面提升,成为了机器翻译领域的核心技术。然而,神经机器翻译模型的效果高度依赖于平行语料的规模和质量。而在实际的许多语言和领域中,高质量的平行语料资源是十分有限的,因此制约了神经机器翻译模型的性能。针对以上问题,本文旨在探索如何使用较少的平行语料,同时充分利用其他比较容易获取的资源来帮助神经机器翻译模型的训练。具体来说,本文在有限的平行语料资源的背景下,以挖掘利用其他相关资源为核心,开展以下三个方面的研究工作:首先,从有效开发利用单语语料的角度出发,本文研究同时使用平行语料和单语语料进行模型训练的问题,提出了一种新的半监督神经机器翻译方法。该方法的主要思想是通过全概率公式来估计目标语言端单语语料的似然并同时最大化平行语料和单语语料的似然。进一步地,为了解决在计算全概率公式中的期望项时搜索空间过大的问题,采用了重要性采样的方法来避免枚举所有可能的源语言句子,并保证了目标函数的有效性。在英语-法语和德语-英语两个翻译任务上的实验结果证实了本文提出的方法相比于其他半监督神经机器翻译方法的优越性。然后,本文通过神经机器翻译模型的概率性质引入数据相关的正则化项,并将其应用到单语语料上以帮助神经机器翻译模型的训练。具体来说,全概率公式描述了边缘分布与条件分布之间的关系,即将翻译模型与语言模型通过概率等式联系起来。然而,在实际中使用平行语料训练的神经机器翻译模型无法保证在任意数据上满足全概率公式。因此,我们提出将全概率公式作为正则化项加入到模型的训练目标中,从而显式地强调模型之间的概率关系,以便使模型学习的过程朝着正确的方向进行。其中,加入的正则化项可以应用在包括单语语料的任何数据上,即数据相关的正则化。最后,在英语-法语和德语-英语两个翻译任务上的实验结果证实了该方法的有效性。最后,进一步考虑神经机器翻译中平行语料数据短缺的问题,本文针对完全没有平行语料的神经机器翻译场景(即零资源神经机器翻译)开展了研究。具体来说,本文借助额外的多模态语料来构建神经机器翻译系统,通过将零资源的多模态神经机器翻译任务转化为强化学习问题进行训练,并引入一种句子级别的监督信号,即通过图像来估计源语言句子和目标语言句子之间的相关性以评估目标语言句子的质量。在此基础上,本文设计了两种不同的奖励函数来指导模型的学习过程。最后,在三个数据集的三个翻译任务上的实验结果验证了提出的强化学习训练方法的有效性。
其他文献
听说教学作为中学英语的重要课型之一,在发展学生学科核心素养方面具有与阅读教学同等重要的价值。一些教师在听说教学中培养学生核心素养的意识薄弱。听说教学可以从三方面
无源雷达相比传统的有源雷达,具有很好的“四抗”(抗反辐射导弹和轰炸、反隐身、抗超低空突防、抗侦察和电子干扰)性能。随着现代无线通信技术的不断发展,通信体制不断更新,
专利作为知识产权领域的一项重要指标,与技术进步和自主创新能力关系最为密切,能够反映出企业的核心竞争力。专利知识产权是推动创新和提高竞争优势的主要驱动力之一,具有重要的
荀子是中国古代伟大的思想家,是儒家思想的集大成者。他对中国文化最重要的贡献就在于,奠定了中国传统文化礼治模式的基础。中华民族是一个礼乐之邦,荀子的礼治和乐论思想在
维柯研究的历史与现状体现了维柯思想的独特价值,也是西方思想文化变迁的生动写照."诗性智慧"不仅为现代西方文化反思提供了精神资源,也为人类精神科学的建立提供了方法论启
河南省文物考古学会和《华夏考古》编辑部举办的“2016年度河南省五大考古新发现”的评选结果为:安阳辛店商代晚期铸铜遗址、新郑郑韩故城北城门遗址、洛阳西朱村曹魏墓、洛
这个世界正在发生一场前所未有的科技冤案,它是美国动员其盟友国家试图对中国高科技公司华为实施“绞杀”。$$美国不仅自己排斥华为从电信设备到手机的各种产品,而且要求其盟国
期刊
研究气温对植被覆盖度和ET(Evapotranspiration,ET)的影响,对干旱区应对气候变化、维系生态系统稳定具有重要意义。基于阿勒泰地区及周边7个气象站,CRU数据集中的气温数据及M
公司治理结构是20世纪80年代以来经济学界和法学界所共同关心的重要课题.本文在考察公司治理结构的含义和各国治理模式的基础上,针对我国的现实,结合经济学和法学的相关理论,
"对极"是西方研究中国问题的学者使用的一个词,意思是说中国与西方在文化特征上有着截然的对峙关系.用它来说明中西方的法现象也不无道理.哈佛大学昂格尔教授在分析欧洲"法的