指代消解驱动的篇章神经机器翻译及质量评估的研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:lcm0153
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
篇章机器翻译是目前机器翻译快速发展下的一项重要的研究课题。指代作为篇章衔接的常用手段之一,在翻译单元上占的比重很小,但是指代部分的歧义会严重影响译文的质量。因此以指代为切入点来研究篇章翻译具有非常重要的意义。近年来,在神经机器翻译(Neural Machine Translation,NMT)质量得到极大提高的同时,基于神经网络的指代消解的性能也得到很大提升。本文以指代消解为驱动,在利用有限和全局篇章信息的篇章神经机器翻译模型中对指代信息的表征和融合方式展开积极的探索,并从观察到的源文和译文存在上下文语义和指代差异出发,研究了不依赖参考翻译完成译文质量评估的方法。主要研究内容包括:(1)指代约束的局部上下文感知的NMT。本文首先为基于标准Transformer实现的利用局部上下文的篇章神经机器翻译模型设计了两类指代表征,其次提出将两类表征分别通过软约束和硬约束方法融入到翻译模型中。实验表明,在BLEU值上,融入指代信息的系统相对句子级翻译的提升明显,却不显著优于篇章基线翻译系统。但在专门的英德代词翻译质量评估数据集上,融入指代信息前后的篇章基线翻译系统存在显著的性能差异,表明了本文方法的有效性。(2)指代链注意力指导的全局上下文感知的NMT。G-Transformer是利用全局上下文进行篇章翻译的优秀模型,但其在长序列文本的翻译过程中缺乏有效信息关注,针对这一问题,本文提出联合指代链的注意力机制对其编码层的全局注意力机制进行优化。不仅设计了新的指代链表征,而且改进了核心注意力模块,使模型在关注全局上下文的基础上能聚焦具有相同含义的实体。实验结果表明,该方法能有效提高翻译性能,并且通过可视化分析,可观察到注意力分散问题得到很好的改善。(3)篇章约束辅助的译文质量评估模型。译文质量评估是机器翻译研究的一个重要分支,它与机器翻译是一对相辅相成的研究任务,相关研究工作表明,传统的BLEU指标无法显著体现篇章层面的翻译质量变化,并且考虑篇章上下文的译文质量评估比普通句子级的译文质量评估模型更适合评估篇章翻译的性能,因此本文展开对篇章质量评估的研究。本文观察发现源文和译文句子间的语义和指代的差异可以帮助译文质量评估,因此设计了额外的损失函数使得模型在预测分数时尽可能地约束两者之间的差异。相对于基准的质量评估系统,本文提出的方法在Pearson相关系数上最高提升了 6.68个百分点。综上所述,指代消解驱动的篇章机器翻译的研究具有很大的挑战性,本文在两类有代表性的经典篇章神经机器翻译模型中尝试了多种指代表征和融合方法,系统性能的提升在传统的BLEU值上的确不是非常显著,但是借助特定数据集和可视化分析都能观察到性能的改善,可以预测今后篇章质量评估的研究将是推动此课题的一项关键技术。
其他文献
目的:一、研究创伤性脑损伤(Traumatic brain injury,TBI)后Armcx1蛋白的表达变化及其细胞类型分布;二、研究Armcx1在TBI后继发性损伤中的作用;三、研究TBI后神经元中miR-223-3p对Armcx1的调控作用及其在TBI后继发性损伤中的作用。方法:本研究设计分三部分实施。第一部分选取成年雄性C57BL/6小鼠(21-28g),采用控制性皮层撞击(CCI)方法建
学位
强化学习通过不断“试错”的方式和环境进行交互,去寻求最大累积回报。然而大部分强化学习算法利用随机探索来获取环境信息,这类无限制的探索往往会使智能体陷入危险。安全强化学习是保障智能体安全的强化学习,它会在保障智能体安全的前提下去寻找最优策略。针对智能体安全问题,本文从预测的未来状态规避危险开始,进一步深入利用未来状态构造内在奖赏,最后将多步预测的未来信息用于改进策略。具体内容如下:(1)基于预测改进
学位
随着移动互联网技术的蓬勃发展,各领域应用层出不穷,互联网信息呈现爆炸式的增长。推荐系统成为解决这一“信息爆炸”的重要途径之一,可以从海量的数据中迅速而准确地为人们挑选出需要的信息,提高人们的生活效率。虽然推荐系统可以一定程度上解决信息过载的问题,但也只是对有大量历史记录的用户有很好的推荐效果。对于一些新来的或者是不活跃的冷启动用户,推荐系统难以通过少量的交互记录捕捉其偏好。因此,迫切需要新方法来解
学位
自由基非常活泼,因此调控两个不同自由基的产生、发生交叉偶联高效构建一个新的化学键,由此发展出一种具有合成价值的合成方法,这是一个具有挑战性的课题。本论文进行了芳甲基自由基和磷自由基的产生、交叉偶联构建C(sp3)-P键的研究,同时研究了硫磷试剂SDDP的合成与反应。本论文由以下三个部分组成。一、4-(杂)芳甲基-1,4-二氢吡啶与二(杂)芳基氧化膦反应构建C(sp3)-P键的研究本研究经系统探索,
学位
有机硫化合物是一类非常重要的有机物,在医药、生命科学、食品及功能材料等领域均具有重要的应用价值。因此,发展绿色、环保、经济、高效的C-S键构建方法具有十分重要的意义。近年来,光驱动的C-S键构筑已成为合成有机硫化合物的有效方法。本学位论文中,在无光催化剂、无金属的条件下,光驱动吡啶硫代酯与苯乙烯的加成反应和吲哚的3-硫氰酸酯化反应。主要内容如下:一、在无光催化剂和金属催化剂的条件下,可见光驱动吡啶
学位
自然通风在压差的驱动下使室外空气进入建筑物,并将空气分配到建筑物内,可以稀释和清除建筑物内的污染物,为室内提供健康的空气。通风过程涉及化学工程中的动量传递、质量传递及热量传递过程,理解通风机理有助于解释许多自然现象,也可以指导建筑设计。因此,从化学工程的角度研究通风系统是一种可行的方法,可能会带来新的见解和启发。本工作着眼于两种特殊的自然通风系统:汉代的“环保灯”——雁鱼铜灯和自然界的“通风建筑”
学位
目的:驱动基因阴性晚期非小细胞肺癌患者免疫检测点抑制剂治疗的获益人群有限,除了 PD-L1高表达和高TMB与PD-1单抗治疗疗效呈明确正相关之外,探索治疗优势人群成为目前的研究热点。本研究回顾性分析了接受PD-1单抗治疗的驱动基因阴性晚期NSCLC患者的一般临床特征、PD-L1、TMB、外周血淋巴细胞亚群比例及外周血炎症标志物,探索与疗效预测相关的标志物,希望能构建PD-1抑制剂疗效预测的模型,为
学位
近些年来,神经机器翻译成为机器翻译领域主要的研究方向。而传统的神经机器翻译研究主要关注句子级别的翻译,忽略了篇章之内句子之间的相互影响。随着翻译场景的变化以及翻译需求的增长,更适用于实际翻译场景的篇章级神经机器翻译受到越来越多研究者的青睐。篇章级神经机器翻译着重于关注如何从篇章上下文中挖掘并充分利用篇章信息,本文针对篇章信息的有效利用提出了三种不同的方法,主要的研究内容包括:(1)融合篇章上下文有
学位
各类垂域规范是由相关专业机构及部门所制定的标准文件,对工程事项起着指导和约束作用。面对海量标准规范,目前在进行专业性工程事项的过程中仍需专家参与,难以提升效率。因此,如何让计算机理解以文本形式存在的垂域规范并自动化解析其中的复杂知识,辅助垂域各专业任务的执行,已成为当下一个热门研究课题。文本解析即为解决该问题的主要方法,它作为一种将自然语言文本转换为结构化表达形式的技术,能够让计算机更好地理解文本
学位
会话推荐作为推荐系统的重要分支,近年来引起工业界和学术界的广泛关注。与传统推荐相比,会话推荐仅利用当前会话中的交互数据来捕捉用户的动态偏好,进而提供及时、准确的推荐建议,而不使用任何个人隐私和历史交互。现有的会话推荐工作通常只考虑会话中的单一类型行为,无法捕捉相关类别行为(例如点击、添加购物车、购买)的语义与关联,因而难以有效解决数据稀疏的问题。本文拟针对多行为的会话推荐任务进行深入研究,提出基于
学位