面向图像与文本的多模态关联学习的研究与应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：jacky899

【摘要】

：

多模态关联学习是多媒体理解任务的基石,并且具有广泛的应用场景。但是多模态关联学习由于其输入数据不同模态之间的巨大差异往往被认为是一个很具有挑战的研究课题。而多模

【作者】

：

白亚龙

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

多模态学习图像识别图像检索视觉问答深度卷积神经网络深度张量神经网络注意力模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多模态关联学习是多媒体理解任务的基石,并且具有广泛的应用场景。但是多模态关联学习由于其输入数据不同模态之间的巨大差异往往被认为是一个很具有挑战的研究课题。而多模态关联学习的关键是在于为不同模态的输入数据建立相互关联关系。本文专注于包括多模态数据对齐以及多模态关联特征学习在内的关于图像-文本多模态关联学习两大基础研究课题,以及与图像-文本多模态关联学习最为相关的两大重要应用:跨模态图像检索以及多模态视觉问答。首先,针对多模态数据集对齐任务提出了一套新的框架,该框架基于图像和文本之间的互补性,同时依托大规模互联网数据以及深度卷积神经网络技术扩充人工标注图像数据集。其中大规模互联网数据提供大量包含上下文文本信息的图像资源,而深度卷积神经网络则代替人工标注资源在借助文本信息的情况下去除掉大量的噪声图像数据。实验结果表明,基于本文方法可以在保证准确率以及多样性的情况下,从大规模互联数据中显著扩充现有人工标注数据集。通过在图像识别任务和迁移学习任务上实验,证明了基于本文方法自动扩充的图像数据集可以带来显著的性能提升。这也进一步验证了基于大规模互联网数据的多模态数据增强可以带来更多有用的监督信息帮助模型训练。其次,提出了一种全新的基于深度卷积神经网络的图像-文本多模态关联特征学习的算法。通过该深度卷积神经网络可以在同一连续空间中学习文本特征表示和图像特征表示。另外还引入了一种名为交叉卷积滤波器正则化的技术加速卷积神经网络的训练速度,减少了将近一半的训练时间消耗。为了进一步验证基于本文方法学习得到的图像-文本多模态关联特征的质量,定义了基于多模态关联特征的文本-文本以及文本-图像之间的相似度度量方法来自动构建图像数据集。这两个相似度度量方法被用来替代传统人工数据集标注过程中的两个重要步骤:类别关键词扩充以及噪声图片过滤。最终,在不使用任何人工标注数据集的基础上从头构建了一个全新数据集。该数据集不但数据规模与大规模人工标注的数据集接近,且在准确率和数据多样性以及跨数据集泛化能力上都与人工标注数据集不相上下。之后本文主要关注跟多模态关联学习相关的两大重要应用。对于跨模态图像检索,本文介绍了三种不同的框架。第一种是基于典型关联分析的图像检索模型,该方法基于大规模文本语料学习得到的文本特征表示以及有标注图像识别任务学习得到的图像特征表示,通过简单的线性变换将两个不同模态的特征空间映射到同一空间。第二种是基于多任务深度卷积神经网络的图像检索模型,针对该模型本文提出了一种全新的逐任务迁移学习的多任务深度卷积神经网络训练方法,且在有噪声的用户点击数据上学习面向图像检索任务的深度图像特征。最后一种是基于图像-文本多模态关联特征的图像检索模型,使用图像-文本多模态关联特征计算查询关键字与图像之间的相关度,以及计算图像与图像之间的相关度对检索后的图像进行重排序。在大规模图像检索任务上的实验结果表明基于图像-文本多模态关联特征的图像检索模型具有更优性能。本文讨论的另外一个跟多模态关联学习相关的应用是多模态视觉问答任务。该任务由于需要综合考虑对图像内容理解的能力,问句文本信息理解的能力以及图像-问句-答案三元组之间的多模态推理关系,往往被认为是一项难度较大的应用。本文提出了一种基于回归的学习模型来度量图像-问句-答案三元组之间的相互关系。此外,还提出了一种基于注意力的深度张量神经网络结构来完成三元组推理过程。实验结果表明,将本文提出的方法应用在目前广泛使用的视觉问答模型MLB和MUTAN上之后视觉问答任务的性能有了显著提升。概括地说,本文为图像-文本多模态关联学习提出了若干种解决方案,且在多模态数据关联以及多模态特征关联这两个多模态关联学习的基础任务上证明了本文提出方法的有效性。同时,本文提出的方法还进一步提升了跨模态图像检索以及多模态视觉问答这两大多模态关联学习关键应用的性能,这也进一步证明了本文研究内容的实用价值。

其他文献

浅谈成本控制视角下企业的财务管理模式

成本控制始终贯穿于企业的发展过程之中,通过实现合理的成本控制,为企业增加效益发挥着莫大的作用。作为企业财务管理的重要组成部分,成本控制对于企业的重要性可见一斑,只有

期刊

成本控制企业财务管理模式

高校篮球教学的“瓦拉赫效应”探讨

本文主要采用文献资料法、访问调查法、逻辑分析法等方法,探讨高校篮球教学过程中的"瓦拉赫效应",为高校篮球课程改革以及寻找和建立一套有效地篮球教学新模式促进大学生健康

期刊

高校篮球教学“瓦拉赫效应”个性发展

人力资本，社会资本：谁更能提高中国退役运动员的收入？

运动员作为我国竞技体育的主体,为国家和社会争得了较大的荣誉。就所做出的贡献而言,他们应该成为一种被制度保护的群体,但现实的悲哀却是:由于他们职业的短暂性、不稳定性、

会议

退役运动员人力资本社会资本收入

JavaScript课程教学改革探索

针对目前JavaScript课程教学所存在的不足,重新组织教学内容,采用案例化教学、启发式教学、任务教学,培养学生的兴趣,改进教学手段和方法,加强实践环节教学,着重培养学生的动

期刊

JavaScript教学案例启发式任务

完美粉底遮瑕又透明

下面,针对两种问题肌肤,教给你如何化妆。一种是偏黄的暗沉肤色,外加青春痘;另外一种是脸上长有黑斑和雀斑的肌肤。如果脸上跳跃着淡淡雀斑,真是有点俏皮可爱,但是当它越来

期刊

粉底液青春痘

应对气候变化挑战,消除气候贫困人口

<正>改革开放30年中国对人类发展的最大贡献就是减少了数亿绝对收入贫困人口,使得全球绝对贫困人口数开始呈下降趋势。根据中国国家贫困线标准,1978年中国农村居民贫困人口达

会议

集装箱起重机模拟器的立体显示及景深

根据集装箱装卸培训特点,提出对集装箱起重机模拟器采用立体显示恢复出虚拟场景的深度信息,以提高模拟器仿真环境的逼真度。提出一种精确确定立体图像绘制时双视点距离的计算

期刊

集装箱起重机模拟器立体显示视差深度感知

基于计算复杂度分析的算法改进

通过对传统的GRIB编码数值预报产品转换为NetCDF编码产品的算法进行计算复杂度分析,针对算法空间复杂度高,IO操作频次高的情况进行优化,提出了行之有效的改进算法.在NetCDF月

期刊

计算机技术与应用算法复杂度分析网络通用数据格式编码数值预报算法

营造轻松学习氛围激发英语学习兴趣

当学生对英语课产生了兴趣,他们在学习过程中思维、记忆、注意力等各种学习因素就能充分调动起来,形成一种最佳的状态,从而使外语学习的难题在无形中迎刃而解,而培养学生的兴

期刊

英语兴趣轻松和谐

砂岩储层中自生伊利石定年分析油气藏形成期

砂岩储集层中自生伊利石仅在流动的富钾孔隙水介质环境下才能形成，烃类流体注入储集层后自生伊利石形成便会中止；因此，烃类流体进入储层时间不可能早于自生伊利石的形成时间。利

期刊

自生伊利石K／Ar定年油气藏形成期砂岩储层塔里木盆地

面向图像与文本的多模态关联学习的研究与应用

与本文相关的学术论文