基于跨模态交互和分层预训练的多模态机器翻译研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:harryamarly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多模态神经机器翻译任务旨在理解输入端的语义,以端到端方式融合图像和文本两种模态信息,以此实现源语言到目标语言的翻译。传统多模态机器翻译,在将源语言翻译成目标语言时,借助图像中的重要特征信息优化翻译过程。通过观察发现,虽然图像中包含丰富信息,但是当图像特征与源语言描述不匹配时,对翻译会带来干扰和噪音。且之前多模态机器翻译系统的翻译结果尽管有着较好的可读性,但在表达力上,有着明显的欠缺,主要的不足为:翻译结果中会出现过翻译或欠翻译的情况,一些歧义词翻译效果欠佳;翻译结果的充分性不足,例如,源语言中一些主题信息、实体信息和场景信息无法正确翻译;翻译结果的流畅性不足,例如,源语言中一些连词、方位词、衔接词没有很好地翻译。针对上述问题,本文提出基于跨模态交互和分层预训练的方法,充分利用图像中有效信息辅助翻译,以减少翻译结果中过翻译或欠翻译的情况。实现系统翻译较复杂的主题或场景描述时,其翻译结果在充分性和流畅性方面仍表现较好,具体研究内容包括以下三个方面:(1)融合覆盖机制的多模态机器翻译研究现有多模态机器翻译,在将源语言翻译成目标语言时,借助图像中的重要特征信息优化翻译过程。通过观察发现,图像里的信息不一定出现在文本中,对翻译也会带来干扰;与参考译文对比,翻译结果中出现了过翻译或欠翻译的情况。针对以上问题,本文提出一种融合覆盖机制双注意力解码方法,用于优化现有多模态神经机器翻译模型。该模型借助覆盖机制分别作用于源语言和源图像,在注意力计算过程中,可以减少对之前时刻重复信息的关注。本文在Multi30k数据集上进行实验,验证了上述方法的有效性,在Multi30k-16英德和英法以及Multi30k-17英德和英法测试集上,对比基准系统BLEU-4值分别提升了1.2,0.8,0.7和0.6个百分点。(2)基于上下文门控的多模态机器翻译研究上一研究中,虽然减少了对重复信息的关注,但是其利用的图像特征为全局特征,和源语言描述不相关的图像特征会带来噪声,且没有充分利用不同上下文间细粒度的语义相关性。针对以上问题,本文提出一种基于门控机制多模态信息融合的翻译方法,用于优化现有多模态翻译模型。该模型通过源上下文门控调整图像特征和每个源语言词的重要度,过滤掉图像中不相关的特征;通过目标上下文门控动态调整源端上下文和目标端上下文对翻译结果的贡献度,从而有效提高翻译结果的忠实度和流畅度。本文在Multi30k-16英德和英法以及Multi30k-17英德和英法数据集上进行实验,对比基准系统BLEU-4值分别提升了1.3,1.0,1.5和1.4个百分点。(3)基于分层预训练的多模态机器翻译研究上述研究工作翻译结果的忠实度或流畅度有了一定的提升。虽然取得了初步的效果,即在最终的目标语言中一些常见的主题信息,实体或场景信息可以正确翻译,但遇到一些较复杂主题或场景时,翻译结果离目标答案差距较大。因此,本文提出一种融合预训练知识跨模态交互方法,通过多模态预训练的方法引入预训练知识,且通过跨模态交互方法动态调整预训练知识在编码端和解码端的贡献度,生成包含多类别主题或场景信息的目标语言。本文在Multi30k-16英德和英法以及Multi30k-17英德和英法数据集上进行实验,对比基准系统BLEU-4值分别提升了1.5,1.7,1.2 和 1.4 个百分点。本文通过以上方法,从多模态信息有效融合和预训练方法学习的角度,一定程度上优化了目前多模态机器翻译中充分性或流畅性表达欠佳的问题。最后,本文方法在Multi30k-16英德和英法以及Multi30k-17英德和英法数据集上BLEU-4值分别达到40.7%,33.6%,62.5%和54.3%。
其他文献
从古至今,山水画承载着一个时代的历史背景以及文人墨客的思想观念,人文内涵给山水画注入了强大动能,为其以后发展带来强大支撑。在漫长的实践过程中,山水画形成的理论体系和形象构图规律开始逐渐成熟。山水画塑造形象的基本工具是毛笔、宣纸,基本元素是点、线、面,这些元素通过毛笔的运行在纸面上形成独特的形象。历代画家通过师造化,不断探索合适的笔墨语言来塑造山水形象,在不断的继承与发展过程中,形成了皴、擦、点、染
学位
飞机是长距离出行的主要方式,有些国际旅行甚至是唯一方式。但随着国内高铁网建设的日趋完善,及第三方代理商代销竞争,我国航空公司面临压力日益增加。提高航空网页使用绩效、提升用户体验水平、进而增强自身竞争力已成为航空公司未来生存发展的唯一选择。虽然各航空公司网站设计形式多样、内容丰富,但仍存在许多用户体验问题。本文基于多模态测量方法,针对航空网页用户体验进行研究,为航空网页设计优化提供研究方法和理论基础
学位
<正>一、前言云南属山地高原地形,山地面积33.11万平方千米,占全省国土总面积的84%,是中国的主要林区,同时也是中国重要的森林资源基地之一。2015年以来,云南省森林资源加速增长,森林覆盖率增加了9.34个百分点,高达65.04%,森林面积达到23.93万平方千米,居全国第二位,森林蓄积量达到20.67亿立方米,居全国第三位,是名副其实的“千山之省”。云南还是我国物种丰富度最高的省区之一,动物
期刊
“学习情境”是指学习时间、地点、背景、内容、师生关系、资源条件等构成的关系错综的场域或环境。适宜的学习情境,应满足真实的生活需求,符合学生真实的情况,促进真实学习的发生,并接受现实条件的制约。当下,某些过于生活事务化的情境创设,在一定程度上有违新课程标准的本意。本文认为,应当革除实践中学非所需、学非所用之处与非真实学习的沉疴,以完善教学。
期刊
目的探讨通窍鼻炎颗粒联合曲安奈德鼻喷雾剂治疗变应性鼻炎患儿的效果及对其白介素(interleukin,IL)水平的影响。方法将69例变应性鼻炎患儿随机分为对照组(36例)及实验组(33例)。对照组采用曲安奈德鼻喷雾剂治疗,实验组采用通窍鼻炎颗粒联合曲安奈德鼻喷雾剂治疗,比较两组治疗效果及IL的表达水平,观察不良反应。结果治疗后,实验组总有效率(93.94%)显著高于对照组(80.56%,P<0.0
期刊
随着信息通讯技术的发展,情感分析技术已成为信息科学领域的热点前沿之一。目前关于情感分析的研究在单模态领域已经较为成熟,但随着数据形式的增多,如何将多个模态数据中的情感进行融合处理成为现有研究需要着重考虑的问题。现有的多模态数据情感分析研究往往忽略了视频中每个话语片段的上下文语义之间的相互依赖和联系,分析准确度具有局限性。同时,在多模态数据融合的过程中,相关算法忽略了情感分类预测中各模态的重要程度存
学位
通过一次真实发生的断路器故障,阐述了弹簧机构断路器在分闸过程中出现分闸延迟情况的原因,结合变电站智能终端后台数据分析,判断该型断路器在操作后,机构动作的全部过程。同时也结合断路器的机械动作特性,分析和判断故障部件以及故障原因。查找原因是断路器线圈铁芯形式不合理,机构脱扣方式存在缺陷,造成断路器未能及时动作,同时在提出一种使用改进型分合闸线圈从而改善断路器分合闸稳定性的方法。
期刊
在市场经济蓬勃发展的背景下,预约合同具有争取交易机会,降低合同风险等多种功能,在当前的市场交易中适用广泛,是促进商品贸易发展的重要工具。它具有较强的诺成性,包含了双方当事人将来订立本约之合意;内容较为明确、具有相对确定性,这使得其与意向书、备忘录等不具有相应法律约束力的文件相区分;应与本约合同有所区别,是约定将来订立合同的合同,因而还具备暂时性、阶段性的合同属性。研究预约合同的违约责任,必须事先确
学位
随着人工智能技术的发展,音乐播放产品呈现出智能化的发展趋势,而市面上音乐播放产品质量参差不齐,体验感较差。当下正是体验经济时代,用户更加注重产品的情感体验和使用感受,对产品的功能性、美观性、情感性等方面都提出了更高要求。多模态交互的音乐播放产品能提升产品的体验感和价值感,通过场景化应用、智能化交互、音乐视觉化等多重维度提高人们的生活品质。本文采用文献研究和实际调研的方式,同时结合跨学科知识对音乐播
学位
采用地球化学测试分析方法对鄂西地区上二叠统大隆组碎屑岩进行了风化程度、物源和构造背景研究,结果表明:鄂西地区大隆组沉积岩富SiO2、Al2O3和Fe2O3,贫CaO,平均质量分数分别为72.18%、9.77%、2.96%与0.08%;矫正烧失量后, Fe2O3T+MgO(均值4.25%)、TiO2(均值0.44%)、Al2O3/SiO2(物质的量比值,均值0.16),最接近活动大陆边缘特征值.球粒
期刊