神经机器翻译的可解释性研究:模型的表示、训练与行为

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:fllmn2585
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,神经机器翻译(Neural Machine Translation)取得了极大的成功,不仅仅作为机器翻译的一个全新范式而蓬勃发展,而且已经被应用于许多语言相关的技术中,例如:在线的通用多语翻译系统、同声传译系统、以及实时聊天助手等。标准的神经机器翻译框架由三个重要部件所组成:a)神经网络模型的体系结构(及其所学的内部隐层表示),b)高效的(且多利用数据增强技术的)序列到序列训练策略,c)用于近似找到最优预测的束状搜索推断策略。尽管神经机器翻译框架已取得不可否认的长足进步,但对研究者和用户而言,该框架却存在诸多难解释性问题,这主要是由框架本身所使用的模型架构十分复杂,且随训练数据增长而使得模型的参数越来越庞大而导致的。神经机器翻译框架的这种难解释性会对未来大规模神经机器翻译系统的研究与部署带来下述两个问题:1)研究人员可能很难解释模型的内在运作机制,使得很难定位与发现模型的缺陷与问题并对框架本身进行改进;2)下游用户可能很难解释模型的推断过程,对模型行为异常没有很好的认识,这使得用户可能不会充分信任翻译系统。本文正是受上述对可解释性在神经机器翻译框架中重要性之讨论的启发而展开的。本文基于该框架的三个组件分别开展了可解释性研究:a)表示的可解释性(Representation Interpretability[RI]),用于解释复杂模型体系结构中蕴含的隐层表示,b)训练的可解释性(Training Interpretability[TI]),用于解释模型的数据增强训练策略与无监督训练策略,c)行为的可解释性(Behavior Interpretability[BI]),用于解释模型推断与模型泛化之间的关系。1.解释与提升神经机器翻译模型的隐层表示[RI]。多层编解码器架构是目前大规模神经机器翻译模型的金标准。现有的一些工作已经探索了解释隐层表示的方法,且主要关注模型编码器表示的解释,然而,模型解码器表示的可解释性却少有工作涉及,且大多数工作并没有依据他们的解释性结论来改进模型的翻译质量。基于“给予解释并提升性能”的目标,本文首先人工构造了一系列所谓的嵌套亲属任务,通过这些亲属任务来衡量解码器各层所学表示的特征泛化能力,验证了解码器各层所学表示的“粗粒度到细粒度”(Coarse-to-Fine)的演化特性。基于上述解释,本文提出了采用全部亲属任务对各层进行表示正则的策略;由于利用全部亲属任务进行表示正则的计算瓶颈,本文进一步设计高效的近似策略,通过选择粗粒度到细粒度的几个具有代表性的亲属任务用于逐层正则。在两个翻译任务上的充分实验证明了上述策略仅仅导致训练计算开销略有提高,且不改变测试计算开销,并相较基线系统而言有(最高达1.3个BLEU值的)一致的性能提升。2.基于与模型泛化能力相关的两个度量,解释神经机器翻译的数据增强训练[TI]。近年来有许多实用的数据增强策略被提出用于模型训练。现有的工作通过模型在特定测试集上的性能好坏来比较不同数据增强策略的优劣,然而本文发现部分数据增强策略在不同的翻译任务或数据上却呈现不一致的性能好坏。基于上述观察,本文尝试去回答如下问题:何种在跨任务、跨数据增强方法上一致的“益处”是数据增强能普遍带给神经机器翻译模型的呢?受到近期深度学习理论研究进展的启发,本文通过两个角度——i)输入的敏感性度量与ii)预测的间隔度量——解释数据增强策略对于模型泛化能力的影响。与依赖于目标端参考译文的BLEU指标相比,上述两个度量均与特定的测试集相关性不高,这使得本文的结论具有相对更小的方差。在四个翻译任务上对五种常用的数据增强方法进行的实验表明了上述二指标相较BLEU指标而言更高的跨任务一致性,可作为衡量数据增强策略的全新内部评价(Intrinsic Evaluation)指标。3.解释神经机器翻译模型的无监督训练[TI]。对神经机器翻译模型的无监督训练近年来受到广泛关注。尽管大量的经验性进展已经达成,然而理论为导向的研究却十分欠缺,因此一些更为本质的问题并没有被很好地探索,例如:为什么某种训练协议能工作?在何种设定下能工作?为此,本文试图对上述问题给出具有理论意义的解释。具体来讲,基于对照研究的思路,本文从两个具有理论背景的角度——i)边际似然最大化与ii)信息论中的互信息——对无监督训练协议的各变体在训练过程中的特性进行了深入的分析。本文的对照研究揭示了一些关于成功进行无监督训练的关键条件,及其他一些有价值的发现。4.通过检测源端上下文屏障来解释神经机器翻译模型的行为[BI]。在机器翻译评价中,传统的性能评估策略往往是在平均意义来衡量模型的泛化能力的,例如语料级别BLEU值。然而,语料级BLEU值这一统计量并不能对模型的泛化能力作出详细的解释与细粒度的分析。为了解决上述问题,本文试图通过定义并检测所谓的“源端上下文屏障”(Source Contextual Barriers)来对神经机器翻译模型的泛化行为进行细粒度的解释。本文提出了源端上下文屏障的原则性定义,并进一步提出该定义一个可计算的、单词级别的修缮版本。该修缮版本利用修改源端词所生成的反事实(Counterfactual)句子级别评价指标值集合,来构造源端单词成为屏障词的风险值。基于该修缮的定义,本文提出三种简易的策略用于估算上述风险值,以检测所谓的源端上下文“屏障词”(Barrier Word)。本文在中-英与英-中的NIST标准数据上进行实验,对检测出的屏障词从词性、源端词范畴、上下文性等维度上进行了细致的分析,并分别定量与定性地讨论了屏障词在译文重排序与人工错误分析中的应用价值。
其他文献
高孔隙率开孔泡沫材料,具有独特的多尺度孔隙和空间网络结构特征,是一种新型的气体换热强化技术手段,已成功应用于电子设备散热等领域。由耐高温材料制造的高孔隙率开孔泡沫材料,在太阳能高温转换、高温气体余热回收、气体燃烧、飞行器热防护等技术领域也展现出广阔的应用前景。但由于对高孔隙泡沫材料内高温传热机理和特性的认识不清、缺乏可靠的热性能设计依据,导致高温泡沫材料的开发和应用受到极大限制。在涉及高温的工程技
学位
语音识别是人工智能领域的重要研究方向之一,它能将语音信号转化为对应的文本序列。目前关于语音识别的研究主要集中在基于深度学习的端到端技术上。深度学习模型通常需要等长的输入输出单元,但由于单个文本单元往往对应着连续多个语音帧,导致它们的序列长度不一致,因此,学习语音和文本序列间的对齐关系是端到端语音识别需要解决的关键问题之一。根据是否需要学习帧级的对齐关系,端到端语音识别技术可分为混合对齐型和软对齐型
学位
信息网,表示了真实世界中众多的对象以及对象之间的联系,在多种现实应用中广泛存在。对信息网的分析研究具有重要的实际意义和广阔的应用前景。在实际中,信息网上的对象和联系常常随着时间的推移不断发生变化,这样的信息网称为动态信息网。近年来,动态信息网中个体、社团及之间关系的分析工作已经取得了一些研究进展,并被广泛应用于实际。但是,相关研究仍然面临着很多挑战。第一,动态信息网中尚有很多重要而有趣的个体、社团
学位
浮动环密封是一种典型的径向间隙密封,其工作原理是在密封界面上形成一层极薄的流体膜,利用流体承载效应使浮动环与转子脱离接触,利用微小间隙的流阻效应实现对介质的密封。近年来随着大推力、可重复使用火箭和大型多功能复合离心机的发展,对浮动环密封寿命、可靠性和变工况适应能力等提出了挑战。本文根据高压、高速、变工况、可重复使用动密封工程应用需求,提出一种小孔节流动静压混合式浮动环密封(以下简称HFRS)。核心
学位
协作同时定位与建图(Simultaneous Localization and Mapping,SLAM)是指多个机器人在未知环境中通过协作,实现同时定位与环境地图创建的技术。协作SLAM被广泛应用于大规模环境建图,但是对系统总体协调效率以及机器人个体之间的协作能力要求非常高。因此,将多机器人系统学习方法应用于协作SLAM成为近年来的研究热点。但是现有方法存在着学习目的及方法单一,无法解决多机器人
学位
霍尔推力器是一种具有高效率、高比冲、长寿命等优点的电推进装置。霍尔推力器在工作过程中,其尾部会形成等离子体羽流。由于羽流中包含了大量的带电粒子,其在空间中的扩散会影响航天器所处的电磁场环境,同时产生的高能离子会打到航天器表面,对航天器表面造成力矩、热沉积、侵蚀等影响。因此,有必要对霍尔推力器羽流进行系统的研究工作。针对霍尔推力器的羽流研究主要包括地面试验、在轨试验和数值模拟三种手段。地面试验测量受
学位
近年来,随着高通量测序技术的快速发展和国际大规模人类基因组计划的广泛实施,产生了EB至ZB量级亟待分析解读的大规模基因组数据。这些数据是新时代生命科学、人口健康、生物安全等战略性领域发展的基础,蕴含巨大的科学、社会和经济价值。序列比对和变异检测是基因组数据分析中的核心技术环节,对于基因表达量分析、选择性剪接、解析基因组中蕴含的遗传与变异信息、发现与疾病和表型的关联关系、揭示疾病发生与发展的分子机制
学位
心脏正常起搏功能的维持依赖于冠状动脉源源不断的血液供给。当冠状动脉因粥样硬化出现狭窄时,供血不足会造成心肌缺血。随着缺血时间的演化,心肌细胞的电生理功能会发生不同的变化,不同状态心肌细胞的电生理特性存在显著差异。按照心肌细胞电生理特性的不同,缺血性心脏疾病被划分为不同的病理阶段:缺血1a阶段(0-15分钟)、缺血1b阶段(15-45分钟)、短期心梗阶段(几天内)和长期心梗阶段(几周内)。本文基于电
学位
电子起搏器在应用于临床的60余年间,挽救了千万心脏起搏障碍患者的生命,但其仍存在易受到电磁干扰、不能响应情绪导致的节律变化等问题。因此有研究者提出一种生物起搏器疗法:通过基因编辑的方式改变细胞膜上离子通道蛋白的表达,从而干预离子通道电流的特性,构建出具有自动节律的生物细胞;将其植入心脏中,来驱动心脏进行跳动,以代替电极的功能。生物起搏器应用于临床前,尚需解决几个问题:(1)离子通道电流如何影响起搏
学位
心血管疾病对人类健康构成严重威胁,同时也给社会造成沉重的经济负担。我国当前的心血管疾病防治工作面临发病率持续增高和医疗资源供应不足等诸多挑战。针对这些挑战,基于可穿戴心电硬件和智能心电异常检测算法的心脏健康监测服务将为心血管疾病的筛查和管理提供有效且经济的解决方案,有望在未来的医疗健康服务体系中扮演重要角色。心电信号可用于检测丰富多样的心脏异常状态,不同异常状态有着不同的发作周期和持续时间,因而对
学位