神经网络机器翻译中的数据优化方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hulala
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过二十多年的发展,统计机器翻译取得了长足的进步,并在生产生活中得到了广泛的应用。然而,受限于离散化的符号表示,传统的统计方法面临着许多天然的缺陷,例如独立性假设过强、泛化能力不佳等等,这使得统计机器翻译的发展逐渐进入了瓶颈期。  神经网络机器翻译是近年兴起的一种全新的机器翻译方法。它采用连续的向量表示,能在一定程度上克服传统统计翻译方法的缺陷,并且该方法采用端到端的训练方式,极大地降低了构建翻译系统的复杂度,因而受到了越来越多的青睐。  同时,新的翻译架构也带来了一些新的问题和挑战。本文从数据的角度出发,通过增强、选择和替换等方式来弥补数据的不足或者提高数据的利用率,以解决神经网络机器翻译中存在的显著问题,并取得了以下创新性研究成果:  1.提出了一种面向句对数据的混合注意力模型  已有的神经网络翻译模型在计算注意力权重时仅仅考虑了内容信息,即源端和目标端的隐层状态,而忽略了源端和目标端单词在句子中所处的位置。这使得译文中经常出现重复、遗漏和跳跃翻译的现象。针对这一问题,本文提出了一种融合位置信息和内容信息的注意力模型。通过在原始数据中添加显式的位置信息,该方法能够有效引导模型去关注那些更为合理的位置,包括之前没有注意过的位置和上一时刻关注点附近的位置等等。实验表明,使用了融合位置信息和内容信息的注意力模型之后,系统的译文质量和对齐质量都得到了显著的提升,并且自动学习到的位置向量也具有良好的可解释性。  2.提出了一种基于双语数据的网络参数实时更新的方法  神经网络翻译系统通常有数千万的参数需要调节,这一方面使得模型拥有强大的表达能力,能够对各种复杂的语言现象进行拟合,另一方面也极大地增加了模型训练的难度。现有的做法通常是在全部的训练语料上学习参数,然后使用相同的参数对所有的测试句子进行解码。但是,受限于训练数据的规模和模型的复杂度,一组固定的参数不可能覆盖所有的翻译知识,因而无法对所有测试句子都做到最优。针对这一问题,本文提出了一种动态的句子敏感的参数更新方法。针对每个测试句子,通过从双语训练语料中实时地检索出相似的子集,该方法采用微调(fine-tune)策略对解码当前句子所需的翻译知识进行实时更新,从而得到该句子的专属网络参数。实验表明,该方法能够显著地改善译文质量。尤其当训练语料中存在与测试句子高度相似的句子时,该方法能够带来超过10个BLEU值的性能提升。  3.提出了一种基于基于双语和单语数据的低频词替换方法  为了控制计算复杂度,现有的神经网络翻译系统只能使用小规模的词汇表。词汇表以外的低频词都会被一个特殊的“UNK”符号所替代。这为神经网络机器翻译带来了两方面的问题:一是低频词本身无法被翻译,二是“UNK”破坏了句子原有的结构,从而影响了句中高频词的翻译和调序。针对这一问题,本文提出了一种基于语义相似度的低频词替换方法。借助从双语和单语语料中学习到的相似度模型,该方法将机器翻译的训练和测试语料中的低频词替换为语义相似的高频词,从而保持了句子结构的完整性,有利于提高整句的翻译质量,并且能够通过后处理的方式实现低频词的翻译。另外,本文还提出了命名实体替换方法作为相似词替换方法的补充,并提出使用字符级别的编码器-解码器模型实现命名实体的翻译和对齐。实验结果表明,本文提出的方法能够有效地改善译文质量,并显著超过了前人提出的替换方法。
其他文献
随着红外成像技术的不断发展,红外成像系统在各个领域都得到了广泛的应用。在自然场景中,红外图像通常具有很高的动态范围,而传统的显示器的显示范围十分有限,所以为了将采集到的
人们生活的现代社会是一个由计算机信息网络、电话通信网络、运输服务网络、能源和物流分派网络等各种网络组成的复杂网络系统。网络优化就是研究如何有效地计划、管理和控制
当今社会中,人民生活水平不断提高,食品安全问题成为备受关注的热点。水果的无损检测与分级也逐渐成为当今农业工程中的热点课题,不仅可以保证水果的安全质量便于后期加工,还可以
PID控制是迄今为止最通用的控制方法。调查结果表明,90%以上控制回路中均采用自整定PID控制器。因此,PID控制器参数自整定技术是一门集自适应控制、智能控制、自动化过程控制为
坦克火炮控制系统性能的优劣直接影响系统的效率和战力。当前对如何提高系统的性能指标有诸多研究方向,其中基于现代控制理论和计算机控制技术的高度发展,提出了数字PID控制方
智能商业平台是大型企业商务应用的一个新兴领域,智能商业平台通过数据仓库、数据挖掘技术对企业的大量数据进行分析从而发现企业发展的内部规律,为企业的科学决策提供有效支持
本文从信息隐藏出发,对基于信息隐藏的信息安全控制方法进行了深入研究。围绕信息掩密通信在军事上的应用,从“知己”和“知彼”两个角度研究信息安全控制方法,将攻击、防守统一
远距离红外目标检测与跟踪技术是红外搜索与跟踪、精确制导、红外预警等系统的一项共性核心技术,是国防武器系统的关键技术。随着光电成像探测技术的迅猛发展,对红外弱小目标的
电网存在的电压波动较大和谐波分量的问题,已成为关注的焦点。由于现有的交流稳压电源产品存在功率密度低、响应速度慢、输出波形无法改善等固有缺陷,对用直接交-交变换的稳压
随着信息化、智能化的发展,针对多种传感器系统展开的关于数据处理的研究成为了一个热点,多传感器信息融合技术由此诞生。本文对多传感器信息融合中所涉及的理论与应用问题进行