基于协同表示学习的多模态机器翻译方法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:mailyangli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济全球化的日益加深,机器翻译(Machine Translation,简称MT)在许多国际舞台上扮演着不可或缺的角色,成为突破不同语言交流障碍的重要手段。在大规模语料库和计算能力有限的条件下,基于神经网络的机器翻译方法能够通过编码器-解码器架构完成源语言序列到目标语言序列的直接映射,从而获得比统计机器翻译更好的效果。然而,由于自然语言本身的复杂性和多样性,单个神经机器翻译模型的表达能力往往存在一定局限性且容易陷入局部最优。机器翻译任务中所处理的序列数据之间具有相关性,直接对不同模型的输出结果进行集成学习的效果并不理想。与此同时,多模态信息融合逐渐成为交叉学科的一个重要研究趋势,而不同模态信息之间融合的难点在于模态鸿沟导致语义表示不准确。
  本文基于Transformer模型在Multi30K数据集上进行多模态机器翻译任务的研究,主要研究工作如下:
  (1)在单模态神经机器翻译任务中,本文研究了一种基于加权条件概率的结果融合方法。该方法在解码过程中通过平均多个模型的概率分布从而预测出下一个目标端词语,从而获得表达能力更强的集成模型。实验结果表明,利用这种结果融合方法得到的最高BLEU分值是33.95,这相比基线模型有17.76%的性能提升。
  (2)针对不同模态数据之间的语义鸿沟问题,本文提出一种基于协同学习的多模态神经机器翻译模型(CRMMT)。该模型分别将文本特征和VGG16卷积神经网络提取到的图像特征进行线性变换后相加,从而得到在同一语义空间下的多模态特征表示。实验结果表明,通过与几种典型的Gate模型对比,本文的模型具有一定优势且相比基线模型性能提升了8.95%。
  (3)为了获得图像更深层次的语义表达,本文提出了一种高维多通道的图片特征表示方法(CRMMT+)。其核心思想是分别从图片的不同色彩通道提取相应的特征表示并运用到CRMMT模型中。实验结果表明,基于这种高维多通道的图片特征表示方法能够进一步提升多模态机器翻译模型的效果。
  
其他文献
有限势博弈作为一类特殊的博弈具有许多优良的性质,特别是纯纳什均衡的存在性和演化下纳什均衡的可达性这两个特性,使它备受青睐.势博弈在博弈理论中占据着非常重要的位置,尤其是在近几年发展的博弈控制论中,作为支付设计和学习规则设计这两个步骤的接口,在分布式系统的优化与控制问题中起着非常关键的作用.本文主要利用势博弈的静态和动态性质,借助矩阵的半张量积这一数学工具,一方面将设备系统等价转化为有限势博弈,从而
学位
浮游生物不仅为海洋哺乳动物和商业上重要的鱼类提供食物,而且通过提供一半的全球初级生产力和对生物地球化学循环做出重大贡献,在海洋生态系统的功能中发挥着根本作用。因此,海洋浮游生物群落结构的变化是一个值得关注的问题。生物上,通过观测海洋测量数据和实验现象发现浮游生物的群落结构受到多种因素的影响。数学建模是分析外在环境变化和内在生理变化对浮游生物生物量影响的一个重要理论方法。通过对浮游生物建立恰当的数学
离群点检测作为数据挖掘技术下的一个重要子项,被广泛应用于网络入侵检测、工业系统故障检测、智能家居系统及医疗诊断等领域。随着数据在规模和维度上的双重增长,如何在大规模多维数据集中准确高效地检测离群点成为一个非常关键且极具挑战性的课题。目前,常用的检测算法如孤立森林(Isolation Forest,iForest)、局部离群因子(Local Outlier Factor,LOF)等由于算法本身的局限
虚拟机迁移作为有效的管理手段被广泛应用于云数据中心,特别是动态迁移技术,其在硬件维护、负载均衡、服务器整合、能耗优化和跨站管理等方面发挥了极其重要的作用。而相关研究中大多都积极地致力于通过虚拟机整合来降低数据中心的能耗,忽略了保证用户服务质量的迁移因子,特别是用户访问虚拟机服务时的访问延迟。访问延迟是现代跨地理区域服务的云数据中心内衡量云服务质量的重要指标,会直接影响到云服务商的市场拓展。因此本文
差分隐私保护下的分类算法一直是信息安全领域中备受关注的研究方向,可以在保护数据隐私的情况下对数据进行分类预测,因此在推荐系统、运输信息保护等方面有着重要的应用。但是差分隐私带来隐私保护的同时会严重影响算法的分类预测效果。因此本文围绕差分隐私下的决策树算法和随机森林算法展开了研究,立足于保护数据隐私性的前提下,提高算法的分类准确率。首先,针对差分隐私决策树算法在低隐私预算下生成噪声量过大的问题,在决
学位
现代战术任务有着复杂的通信和计算需求,战术网络使用无线电台、便携式通信设备等,通过传输数据、控制命令,来完成数据收集、指挥控制等功能。随着战术网络复杂性的增加和联合作战的需求,传统的战术网络架构已难以满足需求,并饱受复杂的配置和过大的协议开销等问题。软件定义网络(SDN)作为一个新兴的,有广阔前景的思想,旨在对通信网络的架构和运行方式进行革命性的改变。但是针对资源及其管理都是分布式的战术网络,如何
随着互联网和多媒体技术的飞速发展,每天有海量的视频产生并上传到各大直播平台,如何让机器理解这类海量的多媒体内容,以此提升这些视频的智能分发效果及效率是各大直播平台面临的重要问题,视频分类是视觉理解技术中的重要组成部分,因此如何实现对视频进行精确且高效的分类是本文研究的主要内容。视频作为多媒体内容的重要组成部分,相比多媒体中的文本和音频等信息而言包含的内容更加丰富,因此本文主要以视频作为研究对象,使
学位
暴力场景检测对于网络信息净化、保护未成年人身心健康、自动视频监控等方向具有广阔的应用前景。视频和音频是媒体中主要信息,但除了视频中的暴力画面和音频中的暴力声音之外,类似愤怒或憎恨情绪的字幕出现往往伴随着暴力场景的发生。字幕文本中所包含的情绪也有很多值得参考的补充信息。尤其是在视频帧或音频帧缺失的情况下,字幕信息对于暴力场景检测有着十分重要的作用。本文对融合视听特征和字幕特征的暴力场景检测方法进行了
随着计算机和信息技术的快速发展,越来越多的用户将海量数据存放到云平台,享受云计算与深度学习技术带来的便利。然而存放于云平台上的数据涉及用户隐私,一旦遭到非法窃取,会给用户带来极大的损失和风险。针对这一问题,学者和专家们提出了基于同态加密的神经网络模型来完成云上的推理任务。用户利用同态加密技术对隐私数据完成加密并上传到云平台。云平台在不解密的前提下,对密文进行处理然后将结果以密文的形式发送给用户。然
学位
互联网中充斥着大量的恶意网页,这些恶意网页在用户不知情的情况下非法窃取用户信息,对用户的网络安全造成威胁。分析并提取恶意网页特征是基于机器学习的恶意网页识别方法的研究重点。恶意网页在URL文本、网页内容等方面与良性网页存在客观的差异,通过特征工程提取这些特征并结合机器学习分类算法,可实现对恶意网页的识别。恶意网页生存期短且攻击手段多变,存在样本收集困难的问题;同时网页样本标注的工作量大,目前还没有